GPT-4太强,OpenAI也不懂!智能到底是怎么突然「涌现」的?
编辑:LRS
【新智元导读】不可解释的智能,未来该如何发展?
2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命;另一方面,其实内行人也不明白,为什么模型规模在突破某一界限后,突然就「涌现」出了惊人的智能。
出现智能是好事,但模型不可控、不可预测、不可解释的行为,却让整个学术界陷入了迷茫与深思。
突然变强的超大模型
先出一道简单的题目,下面这几个emoj代表了什么电影?
最简单的语言模型往往只能续写出「The movie is a movie about a man who is a man who is a man」;中等复杂度模型的答案则更接近,给出的答案是「The Emoji Movie」;但最复杂的语言模型只会给出一个答案:海底总动员「Finding Nemo」
实际上这个prompt也是为测试各种大型语言模型能力而设计的204项任务之一。
Google Research的计算机科学家Ethan Dyer参与组织了这次测试,他表示,虽然构建BIG-Bench数据集的时候我已经准备好了迎接惊喜,但当真的见证这些模型能做到的时候,还是感到非常惊讶。
惊讶之处在于,这些模型只需要一个提示符:即接受一串文本作为输入,并且纯粹基于统计数据一遍又一遍地预测接下来是什么内容。
计算机科学家曾预计,扩大规模可以提高已知任务的性能,但他们没有预料到模型会突然能够处理这么多新的、不可预测的任务。
Dyer最近参与的一项调研结果显示,LLM 可以产生数百种「涌现」(emergent)能力,即大型模型可以完成的任务,小型模型无法完成,其中许多任务似乎与分析文本无关,比如从乘法计算到生成可执行的计算机代码,还包括基于Emoji符号的电影**等。
新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,超过这个阈值,模型的功能就会突飞猛进。
研究人员也提出了涌现能力的另一个负面影响:随着复杂性的增加,一些模型在回答中显示出新的偏见(biases)和不准确性。
斯坦福大学的计算机科学家 Rishi Bommasani 表示,我所知道的任何文献中都没有讨论过语言模型可以做这些事情。
去年,Bommasani 参与编制了一份包含几十种涌现行为的清单,其中包括在Dyer的项目中发现的几种行为,并且这个名单还在继续变长。
**链接:https://openreview.net/pdf?id=yzkSU5zdwD
目前研究人员不仅在竞相发现更多的涌现能力,而且还在努力找出它们发生的原因和方式,本质上是试图对不可预测性进行预测。
理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是在统计方面变得非常擅长,它还可以帮助研究人员利用潜在的优势和减少涌现风险。
人工智能初创公司 Anthroic 的计算机科学家Deep Ganguli表示,我们不知道如何判断哪种应用程序的危害能力将会出现,无论是正常出现的还是不可预测的。
涌现的涌现(The Emergence of Emergence)
生物学家、物理学家、生态学家和其他科学家使用「涌现」一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。
比如无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。
重要的是,涌现能力在涉及大量**部分的**中都有出现,但是研究人员直到最近才能够在 LLM 中发现这些能力,或许是因为这些模型已经发展到了足够大的规模。
语言模型已经存在了几十年,但直到五年前最强大的**还是基于循环神经网络(RNN),训练方法就是输入一串文本并预测下一个单词是什么;之所以叫循环(recurrent),是因为模型从自己的输出中进行学习,即把模型的预测反馈到网络中,以改善性能。
2017年,谷歌大脑的研究人员引入了一种名为Transformer的全新架构,相比循环网络逐字分析一个句子,Transformer可以同时处理所有的单词,也就意味着Transformer可以并行处理大量文本。
通过增加模型中的参数数量以及其他因素,Transformer使语言模型的复杂性得以快速扩展,其中参数可以被认为是单词之间的连接,模型通过在训练期间调整这些连接的权重以改善预测结果。
模型中的参数越多,建立联系的能力就越强,模拟人类语言的能力也就越强。
正如预期的那样,OpenAI 研究人员在2020年进行的一项分析发现,随着模型规模的扩大,它们的准确性和能力都有所提高。
**链接:https://arxiv.org/pdf/2001.08361.pdf
随着 GPT-3(拥有1750亿参数)和谷歌的 PaLM (可扩展至5400亿参数)等模型的发布,用户发现了越来越多的涌现能力。
一位 DeepMind 的工程师甚至报告说,他可以让 ChatGPT 认为自己是一个 Linux 终端,并运行一些简单的数学代码来计算前10个素数。值得注意的是,ChatGPT可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。
与电影Emoji符号任务一样,研究人员没有理由认为一个用于预测文本的语言模型可以模仿计算机终端,许多涌现行为都展现了语言模型的Zero-shot或Few-shot学习能力,即LLM可以解决以前从未见过或很少见过的问题的能力。
大批研究人员发现了 LLM 可以超越训练数据约束的迹象,他们正在努力更好地掌握涌现的样子以及它是如何发生的,第一步就是完全地记录下来。
超越模仿游戏
2020年,Dyer 和Google Research的其他人预测,LLM 将产生变革性影响,但这些影响具体是什么仍然是一个悬而未决的问题。
因此,他们要求各个研究团队提供困难且多样化任务的例子以找到语言模型的能力边界,这项工作也被称为「超越模仿游戏的基准」(BIG-bench,Beyond the Imitation Game Benchmark)项目,名字来源于阿兰 · 图灵提出的「模仿游戏」,即测试计算机是否能以令人信服的人性化方式回答问题,也叫做图灵测试。
正如所预料的那样,在某些任务上,随着复杂性的增加,模型的性能平稳且可预测地得到改善;而在其他任务中,扩大参数的数量并没有产生任何改善。
但是,在大约5% 的任务中,研究人员发现了所谓的「突破」(breakthroughs),即在一定阈值范围内,性能出现了快速、戏剧性的跃升,该阈值随任务和模型的不同而变化。
例如,参数相对较少(只有几百万)的模型不能成功地完成三位数加法或两位数乘法的问题,但对于数百亿个参数,某些模型的精度会大幅提高。
其他任务也出现了类似的跳跃,包括**国际音标、解读单词的字母、识别印度英语(印地语和英语的结合)段落中的冒犯性内容,以及生成类似于斯瓦希里谚语的英语对等词。
但是研究人员很快意识到模型的复杂性并不是唯一的驱动因素,如果数据质量足够高,一些意想不到的能力可以从参数较少的较小模型中获得,或者在较小的数据集上训练,此外query的措辞也会影响模型回复的准确性。
去年,在该领域的旗舰会议 NeurIPS 上发表的一篇**中,Google Brain的研究人员展示了如何让模型利用提示对自己进行解释(思维链推理),比如如何正确地解决math word问题,而同样的模型如果没有提示就不能正确地解决。
**链接:https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087
Google Brain的科学家Yi Tay致力于**研究breakthroughs,他指出,最近的研究表明,思维链的提示改变了模型的规模曲线,也改变了涌现的点,使用思维链式提示可以引发 BIG 实验中没有发现的涌现行为。
布朗大学研究语言计算模型的计算机科学家Ellie Pavlick认为,最近的这些发现至少提出了两种可能性:
第一个是,正如与生物**相比较所显示的那样,较大的模型确实会自发地获得新的能力,这很可能是因为这个模型从根本上学到了一些新的和不同的东西,而这些东西在小尺寸模型中没有的,而这正是我们所希望的情况,当模型扩大规模时,会发生一些根本性的转变。
另一种不那么耸人听闻的可能性是,看似突破性的事件可能是一个内部的、由统计数据驱动的、通过思维链式推理运作的过程,大型 LLM 可能只是学习启发式算法,对于那些参数较少或者数据质量较低的参数来说,启发式算法是无法实现的。
但是她认为,找出这些解释中哪一个更有可能依赖于能够理解 LLM 是如何运行的,因为我们不知道它们在引擎盖下是如何工作的,所以我们不能说这些猜测中哪些更合理。
隐藏在未知力量下的陷阱
谷歌在二月份发布了类ChatGPT产品Bard,不过在演示中却暴露出了一个事实性错误,这也带来了一个启示,虽然越来越多的研究人员开始依赖这些语言模型来做基本的工作,但是并不能相信这些模型的输出结果,需要人来进一步检查他们的工作。
涌现导致了不可预测性,而不可预测性也随规模的扩大而增加,使研究人员难以预测广泛使用的后果。
想要研究涌现现象,那你必须先在头脑中有一个案例,在研究规模的影响之前,你无法知道可能会出现什么能力或局限性。
某些有害行为也会在某些模型中涌现,最近对 LLM 的分析结果表明,社会偏见的涌现往往伴随着大量的参数,也就是说大型模型会突然变得更有偏见,如果不能解决这一风险,就可能危及这些模型的研究对象。
参考资料:
https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/
当前,以芯片为代表的信创产业逐步成为国家科技竞争力的重要标志。在国产CPU产业强势崛起的过程中,你首先想到的会是哪几企业?答案有很多,但“中科系”的提及率绝对很高。作为国家战略科技力量,“中科系”旗下
21世纪经济报道记者倪雨晴 圣何塞报道在硅谷源泉之一的圣何塞,英特尔CEO帕特·基辛格(Pat Gelsinger)正在带领英特尔加速奔跑。当地时间9月19日,2023英特尔on技术创新大会于美国加利
财联社9月19日讯(记者 唐植潇)近日有消息称,OPPO将会重启芯片业务,并且“有部分员工已经回流,加入到了车载业务之中”。记者就此事向OPPO方面进行核实,对方表示“不予置评”。特百惠(我国)数字与
600亿颗芯片!我国巨头正式宣布,美媒:**也没料到制裁这么快
我国芯片市场与美国依赖我国的集成电路市场一直以来都是一个巨大的市场,拥有庞大的需求和巨大的增长潜力。我国的电子消费市场一直在迅速增长,包括智能手机、电视、电脑和各种智能设备等,这些设备都需要高性能的芯
最新手机芯片天梯图:A17、华为麒麟9000S,排在什么位置?
近日,最火的两颗芯片分别是苹果的3nm芯片A17 Pro,虽然很多人吐槽它较上一代提升不明显,但论性能,可以碾压任何安卓芯片,甚至是领先2代的。另外一款芯片,则是华为麒麟9000S,当然,这颗芯片工艺
韩国芯片连续13个月暴跌,尹锡悦指责我国不采购,外媒:自食其果
据韩国媒体称,韩国的半导体出口额已经连续暴跌13个月了,比去年同比下降了28%左右。韩国政府急的焦头烂额。尹锡悦政府竟直接甩锅我国,话里话外都是指责,他认为韩国半导体卖不出竟是我国的原因,我国应该帮助
我国突破芯片瓶颈将影响全球秩序?美国很担心,指出我国关键弱点
我国在芯片半导体领域一直深受美国的**,通过贸易制裁的方式阻止高端芯片进入我国市场。这样的举措一度造成我国芯片领域发展断档,不过随着我国科技企业近几年的突破,目前我国已经在芯片制造方面取得了重大的成果
前几天,华为一声不响的上线了mate60系列,带着麒麟芯片9000s强势回归,吸引了全世界的目光。而华为麒麟芯片**背后,我们不该忘记这位老人—张汝京。我国半导体之父,为回**造芯片,被开除**户籍,
【有车以后 资讯】“未来汽车对传统汽车的颠覆性,使传统零部件体系的50%以上都面临重构。”12月16日,在全球智能汽车产业峰会(GIV2022)上,我国电动汽车百人会理事长陈清泰指出,智能汽车的价值链
投稿点这里汽车有多少个零件?其实这个问题并没有一个十分确切的标准答案...据估计,一般轿车约由1万多个不可拆解的**零部件组装而成。结构极其复杂的特制汽车,如F1赛车等,其**零部件的数量可达到2万个
全球最大的10家汽车零部件供应商 都是世界500强 无我国企业
【卡车之家 原创】美国《财富》**每年发布的世界500强排行榜,是以营业收入数据对全球企业作出排名的榜单。2017年“世界500强”榜单中,汽车制造商和零部件厂商共占据33席(除去大型工程车辆企业),
汽车零部件企业哪家强?除了博世**还有这些名字你一定耳熟能详
文:懂车帝原创 李德喆[懂车帝原创 行业]9月18日,由《我国汽车报》主办,罗兰贝格协办的2019汽车零部件“双百强”企业发布会在江苏南京举行。在两份榜单中,博世、**、电装位列2019全球汽车零部件
行业现状(Reference:产业运行 | 2021年汽车工业经济运行情况)中汽协预测:2022年我国汽车销量达到2700万辆,新能源销量超过550万辆(Reference:乘用车市场信息联席会)以乘
全球十大汽车零部件供应商,核心技术都被他们垄断,自主遗憾缺席
提到电影,我们会想到张艺谋、冯小刚,而很少会想到幕后的制作人;提起流行乐,我们会想到周杰伦、萧敬腾,而很少会想到背后的作词人。台前台后,一幕之别,知名度往往相差甚远。车界又何尝不是如此,知名车企我们都
来源:环球时报 【环球时报记者 倪浩 陶震 环球时报驻德国特约记者 青木】经过3年疫情后,全球最具影响力的通信展今年有望再现往日盛况。2月27日至3月2日,由全球移动通信**协会(GSMA)主办的20
近日华为、苹果争相推出手机卫星通信功能,成为一大亮点,不少手机厂商也将目光投到卫星通信。放眼未来,手机直连卫星的卫星通信服务将是大势所趋,也是6G时代的重要标志。华为以“北斗三号”为依托,率先把“卫星
国内企业在光通信产品的参数测试过程中,通常使用国外的先进测试设备。然而,这些测试仪器之间往往是孤立存在的,需要手动调试仪器并通过旋钮、按钮和人眼观察波形或数据。这不仅*作繁琐易出错,而且测试效率低下。
龙头20cm涨停,7天股价翻倍!一文看懂卫星通信前世今生及产业链
卫星通信概念股华力创通今日再度强势拉升,截至发稿,该股股价20cm涨停,7个交易日累计涨幅近113%,现报23.52元续刷阶段新高,总市值155.9亿元。消息上,有媒体从供应链获悉,Mate 60 P
工信部:目前我国尚不具备实现网络层面的移动通信号码归属地变更的条件
针对网友提出的“电话号码归属地更改”建议,工信部近日给出了官方回复。此前,有网友在人民网留言板向工信部留言称,“现在电话都是实名制,电话号绑定的***及一些主流的软件较多,更换号码后造成一系列问题