IBM的AutoAI让数据科学家更高效,但可怕的是它变得太智能了

2023-01-31 科技行者

我最近有机会与IBM杰出工程师、IBM剑桥研究中心主任Lisa Amini博士讨论了当前的IBM人工智能发展,该研究中心是麻省理工-IBM Watson AI实验室的所在地。在此之前,Amini博士曾担任IBM纽约TJ Watson研究中心认知计算小组的知识与推理研究主管,他在哥伦比亚大学获得了计算机科学博士学位。Amini博士和她的团队隶属于IBM Research,任务是创建下一代Automated AI(自动化人工智能)和数据科学。

我对于“自动化对人工智能和机器学习生命周期的影响”这个话题很感兴趣,并与Amini博士集中讨论了AutoAI的下一代功能。

AutoAI自动执行高度复杂的任务,为数据寻找并优化**的机器学习模型、特征和模型超参数。AutoAI完成了原本需要专业数据科学家团队和其他专业资源才能完成的工作,且速度要快得多。


人工智能建模颇具挑战性

图:“数据科学家想要多自动化?”(图片来源/IBM)

构建人工智能和机器学习模型,是一项涉及多方面的工作,涉及收集需求和将问题公式化。在模型训练开始之前,必须获取、评估数据,并对其进行预处理,以识别并纠正数据质量问题。

由于这个过程非常复杂,因此数据科学家和机器学习工程师通常会创建“机器学习管道”将这些步骤连接在一起,以便在每次优化数据和模型时重复使用。“管道”为模型训练、测试、部署及推理处理数据清理和*控。构建和调整管道不仅复杂,而且还是一项劳动密集型的工作。它需要一个训练有素的资源团队,他们要了解数据科学,还要有了解模型目的和输出的主题专家。

这是一个漫长的过程,因为要做出很多设计选择,并且要针对各种数据的处理和建模阶段进行无数次优化调整。

管道的高度复杂性使其成为自动化的首要对象。


IBM AutoAI在人工智能全生命周期中自动建模

图片来源/IBM

Amini博士表示,AutoAI可以在几分钟内完成通常需要整个数据科学家团队数个小时到数天才能完成的工作。自动化功能包括数据准备、模型开发、特征工程和超参数优化。

图片来源/IBM

整个建模过程端到端的自动化可以显著节省资源。以下是AutoAI的部分功能列表:

  • 自动分析数据,并针对预测建模问题自动生成个性化的模型管道。
  • 模型管道是在 AutoAI 分析数据集并发现最适合问题设定的数据转换、算法和参数设置时迭代创建的。
  • 结果显示在排行榜上,并根据问题优化目标,对自动生成的模型管道进行排名。
  • 从数据准备,到算法选择,再到模型创建,流程的每个阶段都提供可视化。
  • 用户只需单击鼠标,即可轻松部署模型,或为任何管道生成Python notebook。
  • 用于持续模型改进的自动化任务,可以在需要时,将AI模型API集成到应用程序中。

AutoAI显著提高了生产力。只需点击几下鼠标,即使是只有基本数据科学技能的人,也可以使用自定义数据自动选择、训练并调优高性能机器学习模型。

而专业的数据科学家,可以快速迭代可能的模型和管道,并试验最新的模型、特征工程技术和公平算法,无需从头开始编写管道代码。


未来的人工智能自动化项目


IBM Research正在开展多个下一代人工智能自动化项目,例如处理新数据类型的下一代算法,实现新的自动化质量和公平性,并显著提高规模和性能。

Amini博士深入探讨了两个特别有趣的、用于扩展企业人工智能的下一代功能:AutoAI for Decisions和Semantic Data Science。


用于改进决策的AutoAI

时间序列预测,是最流行但也是最困难的预测分析之一。它使用历史数据来预测未来结果出现的时间。时间序列预测通常用于财务计划、库存和产能规划。数据集的时间维度使分析变得困难并且需要更高级的数据处理。


IBM的AutoAI产品已经支持时间序列预测。它自动执行以下步骤来构建预测模型:

  • 为训练准备数据集
  • 根据数据类型确定需要哪种模型,例如分类还是回归
  • 将适当的插补转换器置入管道中以处理丢失的数据
  • 通过确定哪些数据列能够**地支持问题来进行特征选择
  • 测试各种超参数调整选项以获得**结果
  • 根据准确性和精确度等因素生成管道并对其排名。

Amini博士解释说,在许多环境中,创建时间序列预测之后,下一步是利用预测来改进决策。

例如,数据科学家可能会建立一个“时间序列预测模型”预测产品需求,但是该模型也可以作为库存补货决策的输入,通过减少成本、高昂的大量库存积压、或者避免由于库存告罄造成的销售损失,实现利润最大化。

有时,我们会用简单的启发式方法进行库存补货决策,例如,决定何时应该补货,以及补货的数量。在另一些情况下,我们会用被称为“决策优化”的更**性方法来构建规范性模型,以补充时间序列预测模型。

规范性分析(与预测性分析相反)使用复杂的数学建模技术和数据结构进行决策优化,并利用供应短缺的专业知识。然而,像AutoAI生成预测模型那样直接根据数据自动化生成决策优化管道的产品,目前还不存在。

多模型管道


Amini博士解释说,同时使用机器学习和决策优化,才能得到**的结果。为了支持该功能,IBM的研究人员正在开发“多模型管道”,以适应预测性模型和规范性模型的需求。“多模型”将允许业务分析师和数据科学家使用通用模型从各自的角度讨论问题。这样的产品同样需要资源协作。

深度强化学习自动化

现在可通过IBM Research的Early Access计划,获得为决策模型自动生成管道的新功能。它利用深度强化学习来学习从数据到决策策略的端到端模型。这项名为“AutoDO(自动决策优化)”的技术利用强化学习(RL)模型,让数据科学家能够训练机器学习模型,在不确定的情况下执行顺序决策。强化学习(RL)的自动化至关重要,因为RL算法对内部超参数高度敏感。因此,它们需要大量的专业知识和手动工作对它们进行调整,以适应特定的问题和数据集。

Amini博士解释说,该技术会根据数据和问题,自动选择使用**的强化学习模型。它还可以使用高级搜索策略,为模型选择**的超参数配置。

该**可以自动搜索历史数据集或任何兼容的环境,以自动生成、调整**RL管道,并对它们进行排名。该**支持各种类型的强化学习,包括在线和离线学习以及无模型和基于模型的算法。

自动扩展人工智能

强化学习自动化解决了在企业中扩展人工智能的两个紧迫问题。

首先,它为顺序决策问题提供了自动化,在这类问题中,不确定性可能会削弱启发式甚至是不使用历史数据的正规优化模型。

其次,它为具有挑战性的强化学习模型构建领域带来了一种自动化、**化的方法。

Semantic Data Science(语义数据科学)

AutoAI之类最先进的自动化机器学习产品可以有效地分析历史数据,创建自定义机器学习管道并对其进行排名。它包括自动化特征工程——可扩展和增强数据的特征空间以优化模型性能。自动化方法目前依靠统计技术来探索特征空间。

但是,如果数据科学家理解了数据的语义,就有可能利用领域知识来扩展特征空间,从而提高模型准确性。这种扩展可以使用来自内部或外部数据源的补充数据来完成。特征空间是用于表征数据的一组特征。例如,如果数据是关于汽车的,则特征空间可能是福特、特斯拉、宝马。

可以在现有的python脚本或者文献中描述的关系中找到补充的特征转换。尽管如此,要知道哪些特征和转换是相关的,用户必须具备足够的技术技能来破译和翻译代码和文档。

数据科学家的新语义能力

Amini博士介绍了IBM Research创建的另一个强大的新功能,该功能被称为“Semantic Data Science(语义数据科学)”,它可以自动监测给定数据集的语义概念。语义概念表征概念,帮助理解单词和句子,从而提供了一种表达含义的方式。一旦AutoAI检测到正确的语义概念,程序就会使用这些概念广泛搜索现有代码、数据和文献中可能存在的相关特征和特征工程*作。

AutoAI可以使用这些新的、语义丰富的特征来提高生成模型的准确性,并通过这些生成的特征提供可供人类阅读的解释。

即使没有评估这些语义概念或者新功能的专业知识,数据科学家们还是可以试用AutoAI。但是,想要理解发现的语义概念,可以使用Semantic Feature Discovery(语义特征发现)可视化资源管理器来探索发现的关系。

用户只需单击Sources超链接,即可直接从可视化资源管理器进入新功能生成的Python代码或文档,如下图所示。


IBM Research Early Access产品也包含了Semantic Data Science功能。甚至可以在IBM的API Hub上试用其中一些功能。

Amini博士用一句话总结了IBM对AutoAI投入的大量研究工作,并以此结束了我们的谈话:

“我们希望AutoAI和Semantic Data Science去做专家数据科学家想做、但是因为没有时间或者不具备专业知识而不总是能够自己完成的事情。”

要点总结

  • AutoAI允许没有深厚数据科学专业知识的人,生成各种类型的模型,即使是那些具有深厚数据科学专业知识的人,也可以用它更快速地进行原型设计和迭代。使用AutoAI可以快速大规模地生成模型。
  • AutoAI将减少建模的工作量,并提高生产力和准确性。它还将增加部署并投入运营的企业模型的数量。
  • AutoAI for Decisions将自动生成管道可以解决的问题类型,扩展到需要在不确定性和强化学习下进行决策优化的问题。
  • Semantic Data Science将为建模过程增添助力。它将充当专家资源广泛收集并整合难以找到的、各种类型和来源的信息,从而提高在建模型的质量。
  • AutoAI是IBM Watson Studio的一部分。

相关股票:
相关概念: 特斯拉 人工智能

001299美能能源估值分析及打新申购建议

一 公司基本情况速览总股本:1.879亿 总发行量 :4690万 发行**:10.69元 募资总额:5.01亿发行市盈率:20.42倍 行业市盈率:19.12倍所属行业:燃气生产和供应 所属区域:陕西

美能能源(001299)12月6日主力资金净买入1125.28万元

截至2022年12月6日收盘,美能能源(001299)报收于27.53元,上涨2.92%,换手率39.8%,成交量18.67万手,成交额5.05亿元。12月6日的资金流向数据方面,主力资金净流入112

美能能源11月8日主力资金净卖出3991.53万元

截至2022年11月8日收盘,美能能源(001299)报收于22.69元,上涨3.18%,换手率71.38%,成交量33.48万手,成交额7.75亿元。资金流向数据方面,11月8日主力资金净流出399

专访美能能源董事长晏立群:紧随绿色低碳能源**大潮 捕捉清洁能源发展新商机

90年代初,****前沿的深圳还处在草莽创业的时期,那时候,深圳吸引了一批又一批来自全国各地的年轻人,晏立群就是其中之一。从外出闯荡到回乡扎根,从推销液化气灶具到推广应用天然气,从“打工人”到创业者,

美能能源(001299)7月20日股东户数2万户,较上期减少6.82%

近日美能能源披露,截至2023年7月20日公司股东户数为2.0万户,较7月10日减少1465.0户,减幅为6.82%。户均持股数量由上期的8731.0股增加至9370.0股,户均持股市值为15.18万

美能能源股东户数下降13.59%,户均持股3.53万元

美能能源2023年3月22日在深交所互动易中披露,截至2023年3月20日公司股东户数为2.27万户,较上期(2023年2月10日)减少3573户,减幅为13.59%。美能能源股东户数低于行业平均水平

美能能源最新股东户数下降6.82% **趋向集中

美能能源7月24日在交易所互动平台中披露,截至7月20日公司股东户数为20020户,较上期(7月10日)减少1465户,环比降幅为6.82%。证券时报•数据宝统计,截至发稿,美能能源收盘价为16.20

天然气供应商美能能源上市首日涨停,三季报业绩增收不增利

记者 | 陈慧东编辑 | 10月31日上市首日,美能能源(001299.SZ)高开后一路上涨,两次触及涨停**,于10时01分许封上涨停板。截至收盘,该股股价上涨43.97%,报15.39元/股,成交

美能能源股东户数增加59户,户均持股3.64万元

美能能源2023年7月18日在深交所互动易中披露,截至2023年7月10日公司股东户数为2.15万户,较上期(2023年6月30日)增加59户,增幅为0.28%。美能能源股东户数低于行业平均水平。根据

多主力现身**榜,美能能源换手率达67.90%(11-24)

深交所2022年11月24日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收22.57元,涨跌幅为-1.53%,换手率67.90%,振幅10.43%,成交额7.

多主力现身**榜,美能能源换手率达47.30%(11-23)

深交所2022年11月23日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收22.92元,涨跌幅为9.98%,换手率47.30%,振幅12.57%,成交额4.9

11月30日美能能源(001299)**榜数据:机构净买入6.49万元

沪深交易所2022年11月30日公布的交易***息显示,美能能源(001299)因日换手率达到20%的前5只证券登上**榜。此次是近5个交易日内第5次上榜。截至2022年11月30日收盘,美能能源(0

美能能源将开启申购:上半年增收不增利,预计上市时市值20亿元

10月17日,陕西美能清洁能源集团股份有限公司(下称“美能能源”,SZ:001299)披露发行公告,并将于2022年10月18日开启申购。本次上市,美能能源的发行价为10.69元/股,发行市盈率20.

美能能源(001299)11月15日主力资金净卖出2095.05万元

截至2022年11月15日收盘,美能能源(001299)报收于20.1元,下跌1.03%,换手率21.43%,成交量10.05万手,成交额2.01亿元。11月15日的资金流向数据方面,主力资金净流出2

美能能源**深交所,实力营业部现身**榜(10-31)

深交所2022年10月31日交易***息显示,美能能源因属于无**涨跌幅**的证券而登上**榜。美能能源当收15.39元,涨跌幅为43.97%,换手率7.15%,振幅23.95%,成交额5142.

陕西又一城燃公司IPO过会,美能能源“内生式增长”成效几何?

华夏时报(www.chinatimes.net.cn)记者 苗诗雨 陆肖肖 北京报道继陕天然气(002267.SZ)后,陕西第二家区域性城燃公司即将于近日上市发售。天然气资源和油气资源丰富的陕西地区,

加码新能源领域投资 美能能源拟投建集团总部暨西安智慧能源研究院

本报记者 殷高峰11月14日,美能能源发布公告称,公司与西安高新区管委会拟签订《美能能源总部暨西安智慧能源研究院建设项目协议书》,公司计划在西安高新区上市企业园建设美能能源总部暨西安智慧能源研究院,总

多主力现身**榜,美能能源换手率达55.10%(11-25)

深交所2022年11月25日交易***息显示,美能能源因属于连续三个交易日内收盘**涨幅偏离值累计20%、当日换手率达到20%的证券而登上**榜。美能能源当收24.83元,涨跌幅为10.01%,换

多主力现身**榜,美能能源换手率达32.22%(05-29)

深交所2023年5月29日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收18.72元,涨跌幅为3.43%,换手率32.22%,振幅12.43%,成交额2.73

11月7日美能能源(001299)**榜数据:机构净卖出1216.39万元

沪深交易所2022年11月7日公布的交易***息显示,美能能源(001299)因日换手率达到20%的前5只证券登上**榜。此次是近5个交易日内第3次上榜。截至2022年11月7日收盘,美能能源(001

AD
更多相关文章