完全国产化!国产大飞机C919上的GPU架构设计大揭秘
作者:Challey
五月中旬,我国商飞公司的C919大飞机从浦东机场起飞,标志着国产大飞机C919正式开启商用之路。五月下旬,有报道曝光C919的座舱显示**采用HKM9000 GPU图形处理器,已经实现了完全的国产化。这款航电GPU采用了完全自主的指令架构、核心算法、图形流水、软硬件代码及生态,本文就GPU的架构及其研发难度进行重点介绍。
HKM9000 GPU图形处理器由航空工业计算所翔腾微电子公司从2014年开始研发,历时6年,于2020年4月研制成功。这也是国内第一款应用到民航领域的专用GPU芯片。
从多年前就流行的游戏,到最近几年在比特币等数字货币的挖矿等盛行的领域,主要的核心硬件就是GPU显卡(后来挖矿采用了其他更简洁的方案)。
也许有人认为GPU比较简单,不会比CPU复杂。然而,在GPU领域,目前英伟达(NVIDIA)是当之无愧的龙头老大,桌面和移动端CPU处理器领域的英特尔、AMD等公司的技术和产品都与英伟达有相当的差距。
虽然GPU与CPU并不能一定说谁的技术难度更大,但GPU的研发难度也是非常大的,在某种情况下比CPU更难,这种难度首先就体现在架构上,因为现在发展的GPU架构已经在主要的几大公司中形成了专利壁垒。
GPU架构
通用的CPU是S**D架构,而GPU架构是SIMD。
从平面角度看是:
S**D机器是一种传统的串行计算机,它的硬件不支持任何形式的并行计算,所有的指令都是串行执行。并且在某个时钟周期内,CPU只能处理一个数据流。因此这种机器被称作单指令流单数据流机器。早期的计算机都是S**D机器,如冯诺.依曼架构,如IBM PC机,早期的巨型机和许多8位的家用机等。
SIMD是采用一个指令流处理多个数据流。这类机器在数字信号处理、图像处理、以及多媒体信息处理等领域非常有效。GPU就是这样的架构。
GPU架构就是围绕一个流式多处理器(SM)的扩展阵列搭建的。通过**这种结构来实现GPU的硬件并行。包含了关键组件:
- CUDA核心
- 共享内存/一级缓存
- 寄存器文件
- 加载/存储单元
- 特殊功能单元
- 线程束调度器
Fermi 架构(NVIDIA)
Fermi架构是第一个完整的GPU架构,这是英伟达(NVIDIA)公司推出的架构。
来源:NVIDIA官方文档
Fermi逻辑架构中包含具体数据如下:
- 512个加速核心,CUDA核
- 每个CUDA核心都有一个全流水线的整数算数逻辑单元ALU,和一个浮点数运算单元FPU
- CUDA核被组织到16个SM上
- 6个384-bits的GDDR5 的内存接口
- 支持6G的全局机栽内存
- GigaThread疫情,分配线程块到SM线程束调度器上
- 768KB的二级缓存,被所有SM共享
SM包括下面这些资源:
- 执行单元(CUDA核)
- 调度线程束的调度器和调度单元
- 共享内存,寄存器文件和一级缓存
每个多处理器SM有16个加载/存储单元所以每个时钟周期内有16个线程(半个线程束)计算源地址和目的地址。
特殊功能单元SFU执行固有指令,如正弦,余弦,平方根和插值,SFU在每个时钟周期内的每个线程上执行一个固有指令。
每个SM有两个线程束调度器,和两个指令调度单元,当一个线程块被指定给一个SM时,线程块内的所有线程被分成线程束,两个线程束选择其中两个线程束,在用指令调度器存储两个线程束要执行的指令。
NVIDIA其他GPU架构
NVIDIA还有其他架构,面向超强弹性数据中心核心的AMPERE 架构(7nm),面向AI的HOPPER 架构(4N 工艺),专业图形应用中的Turing架构,人工智能引擎VOLTA架构。
此外,先前还有Pascal 架构(16nm),Kepler架构,Maxwell架构。
Intel GPU架构
Intel以往是没有**的GPU的,我们以往常见的是Intel CPU中集成了显卡,称之为集显。直到2021年8月,Intel宣布推出面向游戏玩家的Xe-HPG架构Alchemist GPU;以及面向数据中心的Xe-HPC架构GPU芯片Ponte Vecchio。2022年3月,Intel正式发布了Intel Arc A系列移动端**显卡。
AMD 十余年从GCN进化到RDNA
2010年,AMD为了与NVIDIA竞争,发布了TeraScale 3架构的HD 6970显卡,但在性能上依然不敌NVIDIA。
2011年,AMD发布了采用全新架构GCN(Graphic Core Next)的HD7000系列显卡,其率首先上市的AMD Radeon HD7970拿下了当年很多“第一”的奖项。
从此,AMD开始了GCN架构的进化之路,从2013年的GCN2.0一直到2018年的GCN5.0个系列产品,尽管有了很大的改变,但依然被NVIDIA碾压。
2019年初,AMD发布了Radeon VII显卡,这是当时第一款采用7nm工艺的显卡,但它依旧采用Vega核心,没有太大的升级。
2019年中,AMD发布了RX 5000系列显卡,工艺制程也是7nm。这是RDNA第1代显卡,其最大的进步就是相比GCN架构在能耗比上提升了50%,这是AMD 七年来首次采用新架构制作显卡,AMD称其为“专为游戏而生”的DNA,即大家现在熟知的"RDNA"架构。
AMD从此在游戏显卡一直使用RDNA架构,逐渐抢夺NVIDIA的地盘。不过在专业计算卡领域依然使用CDNA架构。
2020年10月,AMD发布了新一代的RX 6000系列显卡。RX 6000系列显卡基于RDNA2架构,在性能以及能耗比上相比RDNA1代进步明显。
目前,在显卡消费市场,能与NVIDIA比拼的只有AMD。
2022 年Q1,AMD 在** GPU 市场的市场份额为 24%,NVIDIA 为 75%,两者的差距还是很大。
国产 HKM9000 GPU架构
暂时未有公开报道国产HKM9000 GPU的架构。但据我国航空新闻网的报道,HKM9000 GPU芯片具有完全自主的指令架构、核心算法、图形流水、软硬件代码及生态。并且面向典型机载座舱显示**进行了应用级、算法级、架构级、电路级、软件级等系列优化。构建了模型驱动的芯片敏捷设计开发流程,建设了完备的应用开发生态体系。
目前HKM9000已成功适配国内外10余款处理器及天脉全系列、VxWorks、翼辉、Linux等*作**,实现了VAPS、iDATA、SCADE、Qt、MiniGUI、FreeType等图形应用开发软件,在航空、航天、兵器等领域13家用户、18种显控产品中得到应用,功能稳定、可靠。
根据实测,HKM9000相比商业级芯片性能普遍提升20%,在仪表盘等场景中性能提升可达2-3倍。
GPU芯片研发有多难?
通用GPU两大难点
从头开始研发GPU主要有两大困难。第一是专利壁垒,第二是GPU芯片的架构体系化创新。
在专利壁垒方面,GPU作为先进工艺的数字芯片,高技术含量IP的持续演进是技术自主和市场竞争优势的保障。在该领域起步早的全球GPU巨头们已筑建了层层专利保护墙。以GPU架构IP专利为例,苹果在该领域也绕不开专利授权:从A4到A10X的所有苹果手机处理器中的GPU都是采用Imagination的IP,A10之后苹果通过架构授权,有了自己的GPU架构把控,依然是基于Imagination的TBDR架构专利授权,隶属于该架构分支。但一旦架构授权后**演进了,也就不再被专利卡脖子了。
在GPU芯片设计方面,GPU也绝非简单的芯片设计,其设计较一般芯片更复杂,**更庞大,涉及面更广。做GPU需要极其专业的团队,团队从前到后要做到软硬件全栈设计开发。专业人才要涵盖架构、算法、硬件、软件以及各种验证方式,包括后端、版图、驱动、测试、结构、生产代工等,大批量还需考虑供应链等领域。这点从国产GPU HKM9000的研发单位航空工业计算所翔腾微电子申请的专利中可见一斑(见后面的详解)。
航电专用GPU难点
而作为航空领域的专用GPU,其设计则需要考虑得更多,在上万米高空上极寒高热的应用环境下的稳定性,数据传输的稳定性,严苛的可靠性,以及极端情况下依然能够工作的要求等都对专用GPU提出了更多工艺制造和电气特性方面的更高要求。
由于航空领域的高标准,从这方面来看,民航领域的电子产品与**方面的标准已经很接近了。
航电**GPU特点
为了保证飞机完成预定任务,达到各项规定性能,飞机的综合航空电子**(简称航电**)采用分布式计算机结构,通过多路传输数据总线将多种机载电子设备(分**)交联在一起。航电**的GPU被称为航电仪表,是**的电子仪表**(Electronic Instrument System,E**),可以为飞行人员提供飞行器及其分**信息,显示飞机某部分的姿态、高度或运行状况的设备,有着综合显示各种信息、易于追加资料等特点。
早期飞行器的航电**采用机械化的方式对飞行器的运行参数进行收集,并传递到飞行员的座舱进行显示。机械连杆、液压等传动装置,会将飞行器对空速度、对地速度表,水平仪、高度仪等传感器的信息反馈至座舱的机械化指针仪表盘。
意大利沃兰迪亚博物馆中的梅塞施密特Bf.109E“埃米尔”战斗机仪表盘
“埃米尔”战斗机配备了全新的戴姆勒-奔驰DB 601发动机,发动机采用了燃油****和涡轮增压器,于1939年初成为德军装备。
现代E**用电子数据采集取代了传统的机械采集。
E**采用了先进的电子化传感器。电子化传感器可以高速采集真实环境中的物理模拟信号,通过高性能信号处理**,对其进行信号滤波、放大等*作,得到高信噪比的数字信号,随后通过超高带宽的信号传输总线,将有效的飞行器运行关键参数信息传递给座舱的高性能GPU绘图显示**,飞行员便能通过智能液晶仪表盘,得到图形化的信息显示。
国产HKM9000 GPU专利
我们从HKM9000 GPU的研发单位航空工业计算所翔腾微电子公司的专利申请情况看到有120多个专利,绝大部分都是有关GPU方面的。
这些专利包含了:
三角形光栅化扫描方法,基于UML的GPU顶点染色器视图模型及其染色方法,基于训练的GPU配置管理方法、装置、存储介质和GPU,基于SystemC的GPU颜色存储Cache模块的硬件TLM模型及实现结构,基于SystemC的面向GPU纹理缓冲区数据存储TLM模型及实现结构,基于SystemC的GPU纹理贴图周期精确联合**模型及方法,基于SystemC的平面剪裁中GPU几何图元起始标记管理的TLM模型,用于OpenGL显示列表调用的TLM模型, 基于UML面向GPU纹理贴图的硬件视图模型及纹理执行方法,OpenGL多重嵌套显示列表调用方法,模型化显示控制方法和***,配置GPU的方法、装置、电子设备及存储介质,基于DSP的总线控制电路,平面剪裁中GPU几何图元起始标记管理方法, GPU点光栅化点大小奇偶配置的顶点坐标映射方法等等。
其中面向GPU的三角形光栅化扫描结构,涉及面向GPU的三角形光栅化扫描结构,包括:初始化单元,连接所述数据获取单元,用于接收三角形数据信息,并根据所述三角形数据信息获取X轴起始坐标、Y轴检测范围;Y轴步进单元,连接所述初始化单元,用于对X轴进行使能标识,并根据所述Y轴检测范围控制检测元素沿第一方向的步进;若干X轴扫描单元,分别连接所述Y轴步进单元,用于根据所述X轴的使能标识和所述X轴起始坐标控制所述检测元素沿X轴的扫描。本发明提供的一种面向GPU的三角形光栅化扫描结构,集成有初始化单元、Y轴步进单元和X轴扫描单元,实现了GPU的三角形光栅化扫描,从而实现了从**架构文档到RTL的转换。
基于SystemC的面向GPU硬件的glCallListTLM模型,涉及基于SystemC的面向GPU硬件的glCallListTLM模型,包括:显示列表存储单元、DMA控制单元、CallListFIFO缓冲单元、调用控制单元和嵌套表单元;其中,显示列表存储单元用于存储显示列表信息;调用控制单元用于对输入命令或嵌套表信息进行处理,获取描述符指令;DMA控制单元用于根据描述符指令提取预定显示列表信息,并进行搬运;CallListFIFO缓冲单元用于对搬运的预定显示列表信息进行缓存;调用控制单元还用于对缓存的预定显示列表信息进行处理,获得处理信息;嵌套表单元用于根据处理信息得到嵌套表信息。提供的基于SystemC的面向GPU硬件的glCallListTLM模型采用SystemC建模语言,可以摆脱传统信号级别的硬件描述,使用丰富的数据结构进行硬件的高层次行为、时序的抽象。
基于UML的三角形光栅化扫描结构及光栅化扫描方法,涉及一种基于UML的三角形光栅化扫描结构及光栅化扫描方法,包括:数据获取模块,用于获取三角形数据信息;三角形扫描模块,用于根据三角形数据信息对三角形进行扫描,并根据扫描结果获取有效坐标数据;三角形光栅化模块,用于根据有效坐标数据对扫描后的三角形进行光栅化。本发明提供的基于UML的三角形光栅化扫描结构,集成有数据获取单元、三角形扫描模块和三角形光栅化模块,数据获取单元、三角形扫描模块和三角形光栅化模块之间的数据传输通过UML的端口实现,使得X轴扫描与Y轴步进能够并行执行,降低了三角形光栅化的复杂度,改善了三角形光栅化扫描结构的扫描性能和速度。
Intel 在图形领域始终无法超越NVIDIA
GPU硬件结构精密复杂,是长期技术演进的结果。高级图形处理步骤较多,包括顶点处理、光栅化、纹理贴图等步骤,给予支持的是底层精密复杂的硬件结构。从英伟达2010年正式推出第一个完整的GPU计算架构Fermi以来,已经迭代5次,每一次都是对硬件的升级与改进。
而且,英伟达针对不同的领域、不同的应用场景推出了不同的GPU架构。
同时,算法与生态是GPU的软实力。GPU图形渲染需要用到计算图形学,计算图形学是一门复杂的学科,涉及数学、物理等多种知识。模拟真实世界是十分困难的,树叶抖动、头发丝被风吹起、水波荡漾这样看似平常的场景,在计算机上实现的背后是大量的图形算法。软件生态是GPU厂商的重要竞争屏障。一方面,英伟达与行业伙伴形成商业合作或者互相授权;另一方面,英伟达推出供软件开发人员使用的CUDA平台,形成开发人员社区生态,截至2020年,CUDA已经成为全球高级图形处理和AI计算的权威,使英伟达成为全球GPU龙头。
算法上,图形处理算法涉及模拟真实物理世界,需要考虑物理、数学等多种问题。GPU比FPGA和ASIC技术更难。功能上,GPU兼具图形显示与AI计算,性能更强。算力上,GPU内核算力更强,GPU做图形渲染需要双浮点精度,而仅用于AI计算的FPGA和ASIC最多只需要单浮点精度。
Intel早在1997年就曾研发GPU,当时通过收购C&T获得2D显示核心技术,3D技术源于拥有20%股权的Real3D。1998年,依靠Real3D的技术,Intel推出了第一款**GPU i740,但后来因为研发结果不理想等原因,未再继续研发**GPU。
2007年,看到英伟达开启GPGPU战略、推出CUDA,英特尔为保持优势,计划重新推出**GPU产品Larrabee,但由于研发进度不及预期、性能不佳等原因,Intel于2010年5月宣布取消**GPU研发计划。
Intel二十多年多次研发GPU,屡屡未能成功。
直到2021年8月,Intel宣布推出面向游戏玩家的Xe-HPG架构Alchemist GPU;以及面向数据中心的Xe-HPC架构GPU芯片Ponte Vecchio。2022年3月,Intel才正式发布了Intel Arc A系列移动端**显卡。
结语
GPU设计是一项**工程,不仅仅包含硬件架构,还包括算法和软件生态等多个方面,缺一不可。相对FPGA和ASIC,不论是从功能上,还是硬件上,GPU设计难度都更高。
HKM9000 GPU图形处理器已经顺利通过民用大飞机C919座舱显控**的联试验证,转入适航认证阶段。我国国产大飞机C919也预计在2023年首批交付、2025年量产50架。
除了专用航空领域研发HKM9000 GPU的翔腾微电子,当前,我国商用市场也出现了景嘉微、芯动科技、壁仞科技、摩尔线程和沐曦等GPU公司。
期望国产GPU不仅仅在设计和应用上创新,更在GPU底层架构上出现更多的自主突破。
参考
我国航空新闻网;
NVIDIA官方文档(需要GPU架构资料的可联系我们或者作者);
武汉大学计算机学院智能计算**实验室:
https://blog.csdn.net/weixin_51971301/article/details/124703677
迪捷软件:
https://blog.csdn.net/digi2020/article/details/124377351
一 公司基本情况速览总股本:1.879亿 总发行量 :4690万 发行**:10.69元 募资总额:5.01亿发行市盈率:20.42倍 行业市盈率:19.12倍所属行业:燃气生产和供应 所属区域:陕西
美能能源(001299)12月6日主力资金净买入1125.28万元
截至2022年12月6日收盘,美能能源(001299)报收于27.53元,上涨2.92%,换手率39.8%,成交量18.67万手,成交额5.05亿元。12月6日的资金流向数据方面,主力资金净流入112
截至2022年11月8日收盘,美能能源(001299)报收于22.69元,上涨3.18%,换手率71.38%,成交量33.48万手,成交额7.75亿元。资金流向数据方面,11月8日主力资金净流出399
专访美能能源董事长晏立群:紧随绿色低碳能源**大潮 捕捉清洁能源发展新商机
90年代初,****前沿的深圳还处在草莽创业的时期,那时候,深圳吸引了一批又一批来自全国各地的年轻人,晏立群就是其中之一。从外出闯荡到回乡扎根,从推销液化气灶具到推广应用天然气,从“打工人”到创业者,
美能能源(001299)7月20日股东户数2万户,较上期减少6.82%
近日美能能源披露,截至2023年7月20日公司股东户数为2.0万户,较7月10日减少1465.0户,减幅为6.82%。户均持股数量由上期的8731.0股增加至9370.0股,户均持股市值为15.18万
美能能源2023年3月22日在深交所互动易中披露,截至2023年3月20日公司股东户数为2.27万户,较上期(2023年2月10日)减少3573户,减幅为13.59%。美能能源股东户数低于行业平均水平
美能能源7月24日在交易所互动平台中披露,截至7月20日公司股东户数为20020户,较上期(7月10日)减少1465户,环比降幅为6.82%。证券时报•数据宝统计,截至发稿,美能能源收盘价为16.20
记者 | 陈慧东编辑 | 10月31日上市首日,美能能源(001299.SZ)高开后一路上涨,两次触及涨停**,于10时01分许封上涨停板。截至收盘,该股股价上涨43.97%,报15.39元/股,成交
美能能源2023年7月18日在深交所互动易中披露,截至2023年7月10日公司股东户数为2.15万户,较上期(2023年6月30日)增加59户,增幅为0.28%。美能能源股东户数低于行业平均水平。根据
多主力现身**榜,美能能源换手率达67.90%(11-24)
深交所2022年11月24日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收22.57元,涨跌幅为-1.53%,换手率67.90%,振幅10.43%,成交额7.
多主力现身**榜,美能能源换手率达47.30%(11-23)
深交所2022年11月23日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收22.92元,涨跌幅为9.98%,换手率47.30%,振幅12.57%,成交额4.9
11月30日美能能源(001299)**榜数据:机构净买入6.49万元
沪深交易所2022年11月30日公布的交易***息显示,美能能源(001299)因日换手率达到20%的前5只证券登上**榜。此次是近5个交易日内第5次上榜。截至2022年11月30日收盘,美能能源(0
美能能源将开启申购:上半年增收不增利,预计上市时市值20亿元
10月17日,陕西美能清洁能源集团股份有限公司(下称“美能能源”,SZ:001299)披露发行公告,并将于2022年10月18日开启申购。本次上市,美能能源的发行价为10.69元/股,发行市盈率20.
美能能源(001299)11月15日主力资金净卖出2095.05万元
截至2022年11月15日收盘,美能能源(001299)报收于20.1元,下跌1.03%,换手率21.43%,成交量10.05万手,成交额2.01亿元。11月15日的资金流向数据方面,主力资金净流出2
深交所2022年10月31日交易***息显示,美能能源因属于无**涨跌幅**的证券而登上**榜。美能能源当收15.39元,涨跌幅为43.97%,换手率7.15%,振幅23.95%,成交额5142.
陕西又一城燃公司IPO过会,美能能源“内生式增长”成效几何?
华夏时报(www.chinatimes.net.cn)记者 苗诗雨 陆肖肖 北京报道继陕天然气(002267.SZ)后,陕西第二家区域性城燃公司即将于近日上市发售。天然气资源和油气资源丰富的陕西地区,
加码新能源领域投资 美能能源拟投建集团总部暨西安智慧能源研究院
本报记者 殷高峰11月14日,美能能源发布公告称,公司与西安高新区管委会拟签订《美能能源总部暨西安智慧能源研究院建设项目协议书》,公司计划在西安高新区上市企业园建设美能能源总部暨西安智慧能源研究院,总
多主力现身**榜,美能能源换手率达55.10%(11-25)
深交所2022年11月25日交易***息显示,美能能源因属于连续三个交易日内收盘**涨幅偏离值累计20%、当日换手率达到20%的证券而登上**榜。美能能源当收24.83元,涨跌幅为10.01%,换
多主力现身**榜,美能能源换手率达32.22%(05-29)
深交所2023年5月29日交易***息显示,美能能源因属于当日换手率达到20%的证券而登上**榜。美能能源当收18.72元,涨跌幅为3.43%,换手率32.22%,振幅12.43%,成交额2.73
11月7日美能能源(001299)**榜数据:机构净卖出1216.39万元
沪深交易所2022年11月7日公布的交易***息显示,美能能源(001299)因日换手率达到20%的前5只证券登上**榜。此次是近5个交易日内第3次上榜。截至2022年11月7日收盘,美能能源(001