千亿参数的**大模型是如何炼成的?
天地混沌如鸡子,**生在其中,万八千岁,天地开辟,阳清为天,阴浊为地,**在其中。
——三国·吴·徐整《三五历纪》
“每个人都生活在特定的时代,每个人在特定时代中的人生道路各不相同。在同一个时代,有人慨叹生不逢时,有人只愿安分……”这是2021年北京**命题作文“论生逢其时”的开头。
答题的是一位既没上过小学,也没读过初中、高中的特殊考生。他只是在短时间内学习了大量人民的文章,然后凭借自己的阅读理解、文本联想以及语言生成能力,写出这篇看似“像模像样”的**作文。(延展阅读:今天参加**的有1078万考生和一个AI)
是的,它是一个AI——华为云**大模型,就在昨天2021世界人工智能大会(WAIC2021)上刚被评选为大会的“镇馆之宝”!在现场,观众可与大模型互动,直接给对方出题。比如,一句“明明明明明白白白白喜欢他,但他就是不说,他很高冷。”
这句话里,“明明”显示一个人名,而后又作为形容词,且整句需要断句。但当记者向大模型提问 “白白喜欢谁?”时,大模型很快回答“明明”。回答正确!虽然**没有寒窗苦读十几年,但它也经历了上亿参数的“学习”。
比如理解下面这两句话:
1、小明在读一本书,通过不断坚持,克服各种困难,最后读完了。
2、小红在画画,期间遇到了很多困难,最后也完成了这副画作。
虽然上面两句话的人物和事件都不相同,但**也能和我们人类一样,从中提取一个相同的含义:锲而不舍。这个能力其实已经在华为开发者大会(Cloud)2021现场有所展示。我们不禁想问道**大模型是如何做到如此“聪慧”的呢?
为了更深入理解千亿参数的**大模型,我们采访到了**大模型研发员谢凌曦,考虑到大模型涉及到的一些技术比较晦涩,所以谢博士以非常通俗的方式为我们娓娓道来了**大模型研发的“前世今生”,以及它背后的艰难往事。
▲华为云**大模型研发员 谢凌曦
何为大模型:AI落地千行百业的必由之路
神话传说里,**开天辟地,宇宙从一片混沌变得有序,谈**大模型,谢凌曦从人工智能的诞生开始说起。
上世纪50年代,AI概念被提出,人们使用人工设计规则的方式去定义AI。到了80年代,在大数据的浪潮下,人们通过训练数据模型的方式来实现AI。后期随着数据规模扩大以及算力的发展,深度学习掀起新浪潮,各种AI模型不断涌现。
直到近两年,我们开始将跨领域的知识整合到AI模型中,基于Transformer结构的各种大模型出现,包括OpenAI的GPT-3,以及**大模型,“它们打开了深度学习模型的规模与性能共同发展的局面,达到了深度学习领域新的高度。” 谢凌曦推了推眼镜说道。
过去十年,AI 算法对算力的需求增长了40万倍,神经网络从小模型到大模型已经成为了必然的发展趋势。大模型能够解决 AI 模型定制化和应用开发碎片化,它可以吸收海量的知识,提高模型的泛化能力,减少对领域数据标注的依赖。
大模型一方面激活了深度神经网络对大规模无标注数据的自监督学习能力,同时对于 AI 框架的深度优化和并行能力都有很高的要求,是深度学习框架下将AI做到极致的集大成者。“从传统方法到深度学习,这是一次大的跳跃,而在深度学习这个台阶上,大模型已经站在了最前面,等待着下一个台阶的出现。”
当前**系列超大规模预训练模型,包括NLP大模型、CV大模型、多模态大模型、和科学计算大模型。模型大意味着它吸收了海量数据知识,以**NLP大模型为例,它学习了40TB的中文文本数据;**CV大模型则包含了30亿+参数。这些数据提高了大模型的泛化能力,提升算法对新鲜样本的适应能力,从而学到隐含在数据背后的规律,减少对领域数据标注的依赖。
当大模型可以从小数据样本中学习更多,也能帮助我们打开走向通用AI的大门,它可以解决AI模型定制化和应用开发碎片化的难题。
谢凌曦给我们算了一笔账,他认为AI算法落地难不是因为它无法解决实际问题,而是应用场景太狭窄,每个痛点都需要定制化开发,从而导致投入的成本和人力过高。一旦场景变化,整个模型可能都需要重新开发。而大模型是一种工业化AI开发的新模式,可以解决小模型的定制化难题,让一个模型可以应用到多个场景中,让AI真正落地到千行百业中。
**NLP大模型
在最近的CLUE榜单上,**的NLP模型在总榜、阅读理解排行榜和分类任务排行榜上都位列第一,总榜得分比第二名高出一个百分点。为了说明**的NLP模型是如何在理解能力上接近人类的,回到文章的开头,谢凌曦举了我们开篇提到的那个“锲而不舍”的例子解释:
1、小明在读一本书,通过不断坚持,克服各种困难,最后读完了。
2、小红在画画,期间遇到了很多困难,最后也完成了这副画作。
人类可以很容易的通过逻辑判断能力知道两件事表达的是同一个意思:锲而不舍,但大模型需要大量的数据投喂和学习,去捕捉元素与元素之间的关系,比如两段文本之间的关系,几段文本之间,哪两段之间关系更近一些,才能得出逻辑性的判断结论。
还是上面的例子,如果把2改成为“小明在读一本书,期间遇到很多困难,可最后也没能读完”,这样1和2的文字非常相似,但其实两者表达的是完全不同的含义。
大模型需要学会判断这种关系,谢凌曦解释道,
表征(从文本和图像中直接抽取的简**征)和语义之间的关联性是极其复杂的,人能够理解,但让计算机去理解并建立计算模型就非常困难,大模型以大数据的方式以及堆砌大量可训练参数去完成这件事。
**CV大模型
针对**CV大模型,谢凌曦同样先举了一个例子:如何区分白**和白色狗的图片?人类看到这两张图片能一眼识别出来哪只是猫,哪只是狗,那么大模型面对这些是如何处理的呢?
谢凌曦强调图像中非常重要的一个东西就是层次化的信息,
我们需要让模型在训练的过程中,了解这些样例之间真正强关联性的东西。在判断图像的过程中,首先要把握好图片中层次化的信息,能够快速的定位到图片中哪部分信息是起决定作用的,让算法以自适应的方式去关注比较重要的地方或内容,这样就容易捕捉样本之间的关系。在这两张图片中,很明显白色不是最重要的信息,动物才是图片中起决定性的信息。
**CV大模型首次兼顾了图像判别与生成能力,能同时满足底层图像处理与高层语义的理解需求,同时能够融合行业知识的微调,快速适配各种下游任务。
另外,为了解决模型大,数据多带来的学习效率低,表征性能弱的问题,**CV大模型在预训练阶段主要集中在数据处理、架构设计和模型优化三个阶段进行优化。目前**CV大模型在Image Net 1%、10%数据集上的小样本分类精度上均达到目前业界最高水平。
为“应用”而生,**赋能更多用户
大模型训练在各方面突破,也为缺乏大量数据的行业铺上接入智能时代的轨道。正如华为云人工智能领域首席科学家、IEEE Fellow田奇教授在发布**大模型所提到的,**大模型是为各行业的应用而生,**具备前所未有的泛用性,无论是2B场景或是2C场景。
行业知识来源于行业数据,**团队使用了大量行业语音和文本数据,借助这些数据进行微调,模型的行业特定意图和知识理解能力得以大幅提高。
以**CV大模型为例,其在电力巡检行业中表现出超强的应用能力。它利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,节省人工标注时间。在模型通用性方面,结合**搭载的自动数据增广以及类别自适应损失函数优化策略,极大地降低了模型维护成本。
谢凌曦还谈到,除了行业的应用,面向开发者方面,**大模型正在逐步上线到华为云AI资产共享社区(AI Gallery)。在平台上**会开发出一些比较通俗易用的工作流:如果你是有一定基础的开发人员,可以从工作流中做更多的定制化开发,更好地释放预训练模型的能力;如果你只是一个AI开发小白,想用大模型做简单的AI开发,**也会给你更加通俗易懂的界面,让大家用一些拖拉拽的方式去实现。后续**会针对开发者推出系列的课程,指导开发者基于**大模型在实践场景中开发应用。
另一方面,**也希望和开发者共成长。“大模型只是一个抓手,让它应用到实际场景中。不仅更好的帮助用户提高训练的进度和缩短训练的时间,而且模型上的应用数量增多,用户的成本自然而然就降低了。” 谢凌曦表示,**的发展单靠我们团队是远远不够的,我们还需要和开发者一起建设好这个生态。
谈到**大模型的未来,谢凌曦有个简单的小目标——把**推向下一个技术爆发点。AI大模型是深度学习的最高阶段,往下走可能是一条平的直线,大家都在等待跳跃的那一天。华为云一直在努力,用各种原创技术去推动,解决AI开发者实际会遇到的问题,最本质的目的是赋能千行百业的AI落地。
道阻且长,行则将至。正如**大模型的名字一样,华为也希望以大模型为抓手,把AI推向一个前所未有的高度,让我们往下一代AI去走,劈开AI未来道路上的“混沌”。
-END-
7月15日14:30 华为云TechWave云安全专题日,围绕零信任、云原生安全等热点话题,华为云携行业大咖共话云原生安全技术,发布华为云最新安全产品和解决方案,分享行业**应用实践,探讨企业云上安全之道。
关注@华为云,了解更多资讯
当前,以芯片为代表的信创产业逐步成为国家科技竞争力的重要标志。在国产CPU产业强势崛起的过程中,你首先想到的会是哪几企业?答案有很多,但“中科系”的提及率绝对很高。作为国家战略科技力量,“中科系”旗下
21世纪经济报道记者倪雨晴 圣何塞报道在硅谷源泉之一的圣何塞,英特尔CEO帕特·基辛格(Pat Gelsinger)正在带领英特尔加速奔跑。当地时间9月19日,2023英特尔on技术创新大会于美国加利
财联社9月19日讯(记者 唐植潇)近日有消息称,OPPO将会重启芯片业务,并且“有部分员工已经回流,加入到了车载业务之中”。记者就此事向OPPO方面进行核实,对方表示“不予置评”。特百惠(我国)数字与
600亿颗芯片!我国巨头正式宣布,美媒:**也没料到制裁这么快
我国芯片市场与美国依赖我国的集成电路市场一直以来都是一个巨大的市场,拥有庞大的需求和巨大的增长潜力。我国的电子消费市场一直在迅速增长,包括智能手机、电视、电脑和各种智能设备等,这些设备都需要高性能的芯
最新手机芯片天梯图:A17、华为麒麟9000S,排在什么位置?
近日,最火的两颗芯片分别是苹果的3nm芯片A17 Pro,虽然很多人吐槽它较上一代提升不明显,但论性能,可以碾压任何安卓芯片,甚至是领先2代的。另外一款芯片,则是华为麒麟9000S,当然,这颗芯片工艺
韩国芯片连续13个月暴跌,尹锡悦指责我国不采购,外媒:自食其果
据韩国媒体称,韩国的半导体出口额已经连续暴跌13个月了,比去年同比下降了28%左右。韩国政府急的焦头烂额。尹锡悦政府竟直接甩锅我国,话里话外都是指责,他认为韩国半导体卖不出竟是我国的原因,我国应该帮助
我国突破芯片瓶颈将影响全球秩序?美国很担心,指出我国关键弱点
我国在芯片半导体领域一直深受美国的**,通过贸易制裁的方式阻止高端芯片进入我国市场。这样的举措一度造成我国芯片领域发展断档,不过随着我国科技企业近几年的突破,目前我国已经在芯片制造方面取得了重大的成果
前几天,华为一声不响的上线了mate60系列,带着麒麟芯片9000s强势回归,吸引了全世界的目光。而华为麒麟芯片**背后,我们不该忘记这位老人—张汝京。我国半导体之父,为回**造芯片,被开除**户籍,
【有车以后 资讯】“未来汽车对传统汽车的颠覆性,使传统零部件体系的50%以上都面临重构。”12月16日,在全球智能汽车产业峰会(GIV2022)上,我国电动汽车百人会理事长陈清泰指出,智能汽车的价值链
投稿点这里汽车有多少个零件?其实这个问题并没有一个十分确切的标准答案...据估计,一般轿车约由1万多个不可拆解的**零部件组装而成。结构极其复杂的特制汽车,如F1赛车等,其**零部件的数量可达到2万个
全球最大的10家汽车零部件供应商 都是世界500强 无我国企业
【卡车之家 原创】美国《财富》**每年发布的世界500强排行榜,是以营业收入数据对全球企业作出排名的榜单。2017年“世界500强”榜单中,汽车制造商和零部件厂商共占据33席(除去大型工程车辆企业),
汽车零部件企业哪家强?除了博世**还有这些名字你一定耳熟能详
文:懂车帝原创 李德喆[懂车帝原创 行业]9月18日,由《我国汽车报》主办,罗兰贝格协办的2019汽车零部件“双百强”企业发布会在江苏南京举行。在两份榜单中,博世、**、电装位列2019全球汽车零部件
行业现状(Reference:产业运行 | 2021年汽车工业经济运行情况)中汽协预测:2022年我国汽车销量达到2700万辆,新能源销量超过550万辆(Reference:乘用车市场信息联席会)以乘
全球十大汽车零部件供应商,核心技术都被他们垄断,自主遗憾缺席
提到电影,我们会想到张艺谋、冯小刚,而很少会想到幕后的制作人;提起流行乐,我们会想到周杰伦、萧敬腾,而很少会想到背后的作词人。台前台后,一幕之别,知名度往往相差甚远。车界又何尝不是如此,知名车企我们都
来源:环球时报 【环球时报记者 倪浩 陶震 环球时报驻德国特约记者 青木】经过3年疫情后,全球最具影响力的通信展今年有望再现往日盛况。2月27日至3月2日,由全球移动通信**协会(GSMA)主办的20
近日华为、苹果争相推出手机卫星通信功能,成为一大亮点,不少手机厂商也将目光投到卫星通信。放眼未来,手机直连卫星的卫星通信服务将是大势所趋,也是6G时代的重要标志。华为以“北斗三号”为依托,率先把“卫星
国内企业在光通信产品的参数测试过程中,通常使用国外的先进测试设备。然而,这些测试仪器之间往往是孤立存在的,需要手动调试仪器并通过旋钮、按钮和人眼观察波形或数据。这不仅*作繁琐易出错,而且测试效率低下。
龙头20cm涨停,7天股价翻倍!一文看懂卫星通信前世今生及产业链
卫星通信概念股华力创通今日再度强势拉升,截至发稿,该股股价20cm涨停,7个交易日累计涨幅近113%,现报23.52元续刷阶段新高,总市值155.9亿元。消息上,有媒体从供应链获悉,Mate 60 P
工信部:目前我国尚不具备实现网络层面的移动通信号码归属地变更的条件
针对网友提出的“电话号码归属地更改”建议,工信部近日给出了官方回复。此前,有网友在人民网留言板向工信部留言称,“现在电话都是实名制,电话号绑定的***及一些主流的软件较多,更换号码后造成一系列问题