多角度解析自动驾驶芯片，避免成为盲人工程师（下）

在上一篇文章中，主要是从以下几个关键点进行自动驾驶芯片的解析：

1.芯片的四大算力单位（OPS、MACS、FLOPS、DMIPIS）；

2.两大典型AI控制器的算力如何计算（FSD和Xavier）；

3.解释专用处理器的定义（FSD中的NNU、Xavier中的DLA等）；

4.解释为什么Xavier中30 TOPS作为主要量化指标；

5.对汽车界大明星——英飞凌的TriCore™的计算力进行直观解释。

本文，将从以下几个方向对自动驾驶芯片做一些说明和补充：

1.高算力芯片需求的背后：智能汽车E/E架构的发展

2.智能汽车AI芯片大集锦

高算力芯片需要的背后：智能汽车E/E架构的发展

引用一句大家都熟悉的话，目前E/E 构架设计面临4大挑战：功能安全、实时性、带宽瓶颈、算力黑洞。

具体解释就是：在功能复杂度持续提升的情况下满足功能安全的等级要求，包括ISO26262、SOTIF和RSS；在复杂的架构和功能框架下满足实时性的保证；指数级增长的传感器数据和爆炸式的网联数据造成的带宽瓶颈；满足软件持续升级所需要的算力黑洞。

因此，智能汽车E/E架构正从分布式走向集中式，其终极形态是超级计算机。

博世的渐进式路线是目前E/E架构发展的典型路径。从图中可以看出，整体的发展趋势是计算集中化。

伴随着计算集中化的产生，存在一个新的概念。图中可以看出，在域融合的下一阶段，是“车载电脑和区域导向结构”。区域导向结构的关键在于配合车载电脑，完成执行器、传感器、诊断以及传统I/O 的连接汇总，顺利完成高级决策功能，其类似于PC中的南北桥。

在这种情况下，拿军事打个比方。域概念就像是按照职能划分海陆空三军（车身域、底盘域、娱乐域、安全域），并且有独立的作战权。那么车载电脑和区域导向结构概念则是按照战区进行组织划分，与中央计算机形成了联合作战司令部+战区的概念。这样，中央计算机进行统筹兼顾、作出重大决策，对控制器的算力要求显著提升。

另一方面，在未来，OEM交付的汽车将不是一个功能固化的产品，而是一个持续进化的机器人，在汽车整个生命周期内，硬件平台需要持续支持软件迭代升级，这意味着必须打造一个开放的、工具链完善的、拥有强大算力保障的计算平台，提供高达1000 TOPS的算力，为各种软件功能提供充足的算力储备。

智能汽车E/E架构的发展势必导致对高算力芯片的需求。我们一直强调说，软件定义汽车，其实AI芯片何尝不是由软件定义。本质上讲，芯片和构架是手段和载体，软件是目的和灵魂。软硬件一起做，可以让手段和目的高度统一。

只有硬件俯下身来去适配软件的时候，才能够使晶体管所发挥的效能大幅度增加。处理器构架的创新是一个非常高的壁垒，需要对软件有深刻理解。这样的整体解决方案决定了数据转化为决策/服务的效率和质量，是时代真正呼唤的硬科技，满足汽车对芯片高算力且低功耗的要求。

智能汽车AI芯片大集锦

公司名称	产品	产品参数	应用
百度	云端全功能AI芯片	内存带宽：512 GBps；算力：峰值260 Tops算力；功耗：150w；计算速度：推理速度比传统 GPU/FPGA 加速模型快 3 倍。	支持包括大规模人工智能计算在内的多种功能，例如搜索排序、语音识别、图像处理、自然语言处理、自动驾驶和 PaddlePaddle等深度学习平台。
地平线	征程	架构：自研BPU 算力：4TOPS 功耗：2W	自动驾驶中对车辆、行人和道路环境等目标的感知，类似MobileyeQ系列芯片； Matrix2平台，基于Journey征程2芯片，算力达到16Tops
地平线	旭日		面向智能摄像头
华为	昇腾 310	算力：16 TOPS；功耗：8W；能效： 2 TOPS/W 集成了FPGA和ASIC两款芯片的优点，包括ASIC的低功耗以及FPGA的可编程、灵活性高等特点。	MDC300：由华为昇腾Ascend310芯片、华为鲲鹏芯片、Infineon的TC397组成；算力为64Tops。 MDC600：基于8颗昇腾310 AI芯片，同时还整合了CPU和相应的ISP模块，算力高达352 TOPS。
寒武纪	Cam bricon-1M	int 8（8位运算）效能比：5Tops/W；提供了2Tops、4Tops、8Tops三种尺寸的处理器内核。	支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速，能够完成视觉、语音、自然语言处理等任务
寒武纪	云端智能芯片 Cam bricon MLU 100	平衡模式（主频 1Ghz）：128万亿次定点运算；功耗80w。高性能模式（主频1.3GHz）：166.4万亿次定点运算，功耗110w。
黑芝麻	华山二号 A1000	8个CPU核； NN算力：40 ~70TOPS，功耗：8-10W	适用于低等级级ADAS辅助驾驶；单颗A1000芯片适用于L2+自动驾驶；双A1000芯片互联组成的域控制器可支持L3级别自动驾驶；四颗A1000芯片叠加可用于未来L4级别自动驾驶。 A1000L适用于ADAS，计算力为16TOPS ，功耗为5W； A1000适用于 L2+，计算力为70TOPS 功耗为10W； *A10002适用于 L3，计算力为140TOPS，功耗为25w； A10004适用于l3/L4 ，计算力为280TOPS，功耗为 60W。*
Xilinx赛灵思	MP SoC 系列	双核/四核 ARM Cortex A53 （达1.5Ghz）速率高达 600Mhz的四核 ARM Cortex-R5 MPCore 频率高达 667Mhz的GPU ARM，支持 H.264-H.265的视频编解码器	经被包括戴姆勒奔驰在内的29个汽车品牌以及Aptiv、Autoliv、博世和大陆集团等顶级零部件供应商广泛使用
特斯拉	FSD	配备了两个神经网络处理器（NNP）算力：144 TOPS；功耗：72W；能效比： 2TOPS/W
NVI DIA	Xavier	8核ARM64架构; GPU采用512颗CUDA的Volta; 支持FP32/ FP16/INT8; 20W功耗下单精度浮点性能1.3TFLOPS; Tensor核心性能20TOPs，解锁到30W后可达30TOPS.
NVI DIA	Orin	170亿个晶体管; 搭载NVDIA下一代GPU（即基于Ampere架构的GPU）和Arm Hercules CPU核心; 可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍; 功耗45W; 2022年交付.
Mobil eye	EyeQ系列	最高的EyeQ4的算力2.5 TOPS; 功耗:3W; 能效: 0.83 TOPS/W
Mobil eye	EyeQ5	计算力：24TOPS；功耗：10W；芯片能效是Xavier的2.4倍。EyeQ5芯片将装备8枚多线程CPU内核，同时还会搭载18枚Mobileye的下一代视觉处理器	全视觉方案

写在最后

之后，可能要写系列性文章，加深自己对知识的巩固，也希望能和大家一起探索。

如果觉得有用，各位路过的大佬点个关注、在看，茫茫人海相遇不易~

如果存在疑问或者觉得汽车人写点欠妥，后台加微信交流哇。

我是Automan，咱们下期再见。

—— End ——

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。