自动驾驶所需的海量算力,国产AI芯片如何撑起来?
作者 | 半导体芯闻2023-09-18

近期,特斯拉又对外放出自动驾驶新成果。

8月29号,马斯克驾驶一辆Model S,直播45分钟以展示特斯拉FSD 12测试版,吸引了至少1200万人观看,甚至知名科技博主Robert Scoble表示:世界从今晚开始改变。

在直播中,FSD 12测试版实现了全AI端到端的驾驶控制,仅有一次人为干预接管。马斯克表示,FSD 12的行为是大量视频训练的结果,AI可以自己学习驾驶,像人一样判断驾驶路况。另外,马斯克透露正在筹备一个新算力集群,其中包含1万颗英伟达H100。

由此可见,自动驾驶背后所需AI算力之海量。其中作为算力底座的AI芯片至关重要。

视角转回国内,当前国内AI芯片发展如何?

图片

大模型训练芯片缺口较大

在介绍国产AI芯片技术发展情况之前,我们先需要弄明白大模型算力应用在哪。

以自动驾驶为例,算力应用分为训练和推理两个阶段。

打个比方,人类为了掌握开车技术,需要上百个小时不断学习,巩固成为长期记忆,才能学会操作汽车、学会看道标。这个过程就对应着自动驾驶云端训练,用算法模拟人类神经网络,让机器近乎学会人类的思考方式。为了让自动驾驶在任何场景都稳定可靠,训练过程需要输入海量数据,在这个过程中存在大量并发计算,需要TFLOPS(每秒万亿次)级别的算力提供支持。

例如,在国内,小鹏汽车为了训练自动驾驶模型,2022年8月与阿里云联合成立了当时国内最大的自动驾驶智算中心,算力规模高达600PFLOPS,相当于每秒可以完成60亿亿次的运算。小鹏汽车董事长何小鹏认为,“如果现在不以智算中心的方式提前储备算力,今后5年内,企业算力成本会从亿级,加到数十亿级。”

在云端训练完自动驾驶模型后,才到车端感知、决策推理环节。

再打个比方,人类学会开车后,还需要进行科一到科四的考试,通过考试才能拿到驾照。而考试考的是什么?是驾驶员感知、决策、执行的能力。这就对应着自动驾驶推理过程,即自动驾驶经过模型训练后,车载计算平台再结合实时路况做出判断。

因此,当下AI芯片视应用场景不同,也分为训练芯片、推理芯片、训推一体芯片。其中需求最旺盛的即是训练芯片。

GPGPU和ASIC技术路线齐头并进

对于训练芯片,目前主要分为GPGPU和ASIC两类技术路线。

GPGPU是从GPU衍生而来,是弱化图形处理,增强计算能力的产物。模型在训练过程中,存在大量的矩阵计算,GPU架构特点即在于擅长处理并行计算,因此GPGPU芯片可适合绝大多数AI计算场景,通用性更强。当前AI芯片霸主-英伟达的主要产品A100、H100等,就属于GPGPU架构。

目前,国内投入GPGPU芯片领域的厂商较少,原因在于GPGPU研发需要有充足的技术和资金储备。知名的有海光信息、壁仞科技、沐曦等,其中较为领先的为海光。

海光深算一号早在2022年6月就实现了商用。据了解,海光深算一号性能不弱于主流的英伟达芯片,也能兼容英伟达的CUDA环境,适配性好。并且最大优势在于,深算一号是国内唯一支持全精度计算的AI芯片,这让海光可支持科学计算、AI计算、大数据计算等多种计算场景。

另一类技术路线为ASIC,一种为特定场景专门设计的集成电路,比如NPU。在AI算法领域,卷积神经网络是仿造生物的视知觉机制构建而成,是深度学习的代表算法之一。为满足深度学习效率需求,随着AI算法发展,模仿生物脑神经的NPU应运而生。

由此可看出,ASIC芯片需要结合大模型算法做定向开发和调配,通用性没有GPGPU那么强。国内主要在做ASIC芯片的包括寒武纪、华为昇腾等,以及一些互联网大厂,比如阿里含光、百度昆仑芯、腾讯紫霄等等,其性能也能满足大多数计算场景的需要。在大模型计算日益复杂的今天,由CPU+GPGPU+ASIC组成异构计算系统成为算力供给最佳方案,绝大多数AI算力还是需要依靠GPGPU供给。

国产AI芯片商业化应用还需努力

其实综上来看,国内AI芯片设计水平与国外差距不大,在性能方面也足以替代国外AI芯片。不过评判国产AI芯片产品发展好坏,不止是从设计到量产维度考量,能否大规模商业化应用也是较为重要。

比如提到的国内ASIC芯片,基本只用于自家云业务,对外提供芯片产品也需要庞大团队的深度优化。主要原因一方面在于之前提到过的,ASIC芯片从研发之初就需要考虑算法适配情况;另一方面,ASIC芯片生态较为碎片分散,开发者上手难度较高。

相较于ASIC厂商,得益于GPGPU泛用性优势,GPGPU厂商商业化应用做的更好一些。以海光为例,据其官方透露,海光深算一号目前已完成与百度、阿里等厂商互证,主要客户是智算中心等“新基建”项目、行业用户、AI厂商及互联网企业,已商业化部署数十万片。

在国内自动驾驶、AIGC、垂直大模型等AI应用愈发火热的今天,国产AI芯片有希望撑起海量AI算力的需求。在解决性能问题之后,国产AI芯片面对国外巨头是有弯道超车可能性的,虽然未来仍需在生态建设与商业化发展方面大步追赶。

评论代码
中央控制器作为自动驾驶核心部件,作为自动驾驶的“大脑”端,通常需要外接多个摄像头、毫米波雷达、激光雷达,以及IMU等设备,完成的功能包含图像识别、数据处理等。域控制器作为一个智能硬件,为了完成复杂的A
2023-09-18