嘉宾发言

  2024年7月11-13日,2024中国汽车论坛在上海嘉定举办。本届论坛以“引领新变革,共赢新未来”为主题,由“闭门峰会、大会论坛、10多场主题论坛、9场重磅发布、主题参观活动”等多场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探索方向,引领未来。其中,在7月13日上午举办的“主题论坛九:汽车芯片高质量发展,巩固智能网联新优势”上,湖北芯擎科技有限公司副总裁兼产品规划部总经理蒋汉平发表精彩演讲。以下内容为现场演讲实录:

  谢谢协会给我这个机会,今天给大家介绍芯擎科技的舱行泊一体化方案。芯擎公司在国内7nm车规工艺上,目前在高性能的车规芯片出货量最大,公司从2019年运营到今年才5年时间,芯片从零开始到现在已经实现了上车装载40万片,今年大概率冲到1kk。芯片公司和团队,高性能芯片可以达到1kk是很多芯片设计人员的梦想,芯擎公司的产品给了业界更多、更好的选择。
  一、7nm车规芯片架构设计特性
  现在国内7nm真正做到上车量产达到几十万级、百万级的目前凤毛麟角。制程方面的选择各个应用方向趋势不完全相同:AI方面的在往5nm甚至3nm、2nm上走,包括云端、端端、手机端都是这样的趋势。对于车端来说目前主要在16nm到7nm演进过程中,因为7nm整体来说是性价比最好的制程,对于车规工艺而言,也是能够最大发挥性能的卡点。实际上这里存在一个问题,形象地比喻一下:假如一个大的散热空间里有10瓦的灯泡可以让它发光发热很充分,但是手机芯片追求更薄、更轻,也就是说把10瓦的灯泡放在小盒子里,结论是什么?也就是说全速全时运行时,标称和实际使用的算力并不一致。
  从网络设备来说目前主要也是7nm,无线终端设备主要是5nm,HPC主要是5nm。整体上从高性能芯片的趋势来说都是往7nm的方向走,功耗敏感、散热敏感走的是5nm、3nm、2nm。所以这里面国产芯片也要思考一下,车规SoC合适的制程是什么,是不是一定要跟着手机趋势往下走?这带来里面有发挥算力效率的问题,并不见得一定是合理的选择。
  从7nm来说,7nm晶体管的密度是16nm的3.3倍,性能提高35%,同等面积的情况下功耗降低65%。经常有些朋友问,如果我们做16nm行不行?因为7nm制程生产还是有一些难度的,把7nm生产工艺做好、设计做好、工序做好需要设计企业和制造企业相互做非常多的设计准备和配合,这里面需要极强的量产经验;同时16nm和更低制程由于门开关的频率不高,它做不到高性能,我们很多的大核系统都是以7nm起步,仅仅把16nm做得更大能否达到7nm的性能?这是一个大大的问号。也就是说7nm对于车规芯片来说是一个“甜点”,不管是性价比、性能还是车规都是最适合的选择。
  下面谈一下关于车规芯片架构的问题,我们有服务器芯片架构、手机芯片架构,我们车规芯片架构怎么思考的?昨天参加峰会的时候也在谈创新,我们创新的切入点是什么?是复制、平替还是创新找一条适合自己的路,在这条路上创新?这种情况下我们需要车规SoC要好好考虑一下。国外虽然在智能网联汽车专用芯片架构的研究相对滞后,但芯片能力是超前的,原因是由于手机芯片可以降维到车机,但如果我们能够明确好车规SoC到底架构是什么样子,其实可以走出一条自主创新的成功之路。
  以芯擎的“龍鹰一号”为例,我们已经大规模量产达到40万片高性能的芯片,这是个高算力芯片也是个高价值芯片,并不是十几美金、几美金的MCU。我们整个产值在高性能车规智能座舱芯市场上已经得到了完整体现。在这种情况下,和相关国际旗舰产品竞品相比,我们会在指标上针对车规芯片架构特性稍微做一些弱化,但是在价格和架构上做出优势,结果是芯片在全速全时运行的时候性能供给和算力效率强于他们。
  这里有两个灰色的图,比如车规芯片架构灰色部分通过分区机制不需要虚拟化参与,可以把运行时的算力和标称算力1:1,但如果是手机芯片会降频,甚至会虚拟化,层层打折,最终真正的有效算力运行的时候只有60%-70%,如标称100的手机芯片性能,真正运行的时候只有60%-70%。还有一种芯片就是裸芯片硬隔离,把两个片子拼到一起,看似标称达到了100k、200k,但实际上内外存子系统、各部分的算力都是分离的,这种情况下整个软件的复杂性以及系统能力会大大降低,我们“龍鹰一号”为什么五年时间内从芯片设计到车型量产这么快?原因是我们有自己独特的车规SoC架构的思路,最后量产落地的时候相对顺利。
  大核算力是SoC的必选项,我们经常谈算力,怎么看算力?算力是标称算力数值大还是面对应用压力是有效算力满足要求, 这个需要根据应用场景分析。比如我们在车规芯片的场景非常分裂:一方面是应用密集型的比如说座舱芯片大家可以看到丰富的应用性,不管语音、视频、还是大模型AI,但是在智驾领域又是延迟敏感、带宽敏感的,虽然都是大算力,但是他表现的算力单元、异构单元不一样。这种情况下一定要提供好大核算力,不要通过小核大量堆积成标称算力,这样结果就是在使用的时候面对不同应用场景的时候,应用压力的时候,小核驾驭能力有限,应用发挥困难,大家都知道小核主要目的是调度控制,不是跑算力压力型的。
  所以说高性能的大核是舱行泊一体必选项,这段时间大家都在谈舱驾,舱泊融合、中央计算。实际上这种融合有一定的约束:我们在车规芯片是什么特点?有信息安全和功能安全,有低延迟、高带宽,有不同的异构算力,甚至有很多部分是相互矛盾的,比如说智驾芯片可能重点是在AI单元,座舱芯片重点是在图形单元,这两个单元从芯片设计的角度来说PPA是互斥的,基本上都占芯片40%的面积包括功耗,这种情况下能否做到完整地融合?
  另外是可靠性,智驾芯片包括集成MCU的智驾芯片,座舱芯片的可靠性要求也不一样,包括信息安全,这种情况下你做一个简单的算力堆积会出问题。我们可以简单的把芯片和车做对应,实际上我们认为在车70年的历史里面接近60年都是在做分布式,分布式的车从机械特性来看有他的逻辑,其实也是异构系统,我们在芯片角度来说,考虑这个问题的时候也要考虑它的异构性。
  现在以量产的“龍鹰一号”描述一下我们对于芯片的理解,比如车规芯片一定要有很强大的CPU能力,一定体现在大核的能力。另外CPU有一个角色,因为现在AI领域包括其他领域前后处理包括算法算子并不能完全覆盖,现在不管大模型也好、算法算子也好,隔几个月就要推陈出新,这种情况下IP和算子容易老化,CPU可以提供一定的弥补能力。GPU能力对座舱的要求比较高,现在经常强调各种3D效果包括一镜到底,包括3D游戏。这方面图形能力在芯片当中显得很重要,我们需要提供比较强大的GPU渲染能力。
  还有NPU能力,我们很关心AI能力的适度化,比如座舱领域AI能力大概是多少,正常情况下满足基本的DMS其他需求的话,泊车来说8TOPs左右是OK的。但如果是高速NOA的情况下可能需要30-40TOPs,城市NOA可能200-500TOPs。对于座舱来说,我们怎么样选择一个合理的NPU趋势?这是我们要考量的。
  如果是车规芯片不考虑安全,这个芯片和车规几乎没有关系。这种情况下一定要考虑好功能安全,功能安全是传统车的概念,在芯片里面怎么表现?这是我们要考虑的。另外芯片是否要全部做功能安全这也是要考虑的,功能安全要付出大量的冗余和成本代价,这种情况下SoC不能是简单做各个部分的冗余,这样导致的结果是我们芯片的成本会脱离客户使用的场景。所以“龍鹰一号”通过ASIL-D功能安全岛提升整个芯片的功能安全,可以看到国外很多手机芯片包括目前最主流的上车最多的完全没有功能安全任何概念,只是通过软件,软件要达到功能安全我们是持疑问的,包括虚拟化软件和功能安全包。
  同时中国芯片也要有中国特点,包括国密的算法SM2、SM3、SM4,这一点上我们也要完整支持。这里汇报一下,我们的“龍鹰一号”是ASIL-D的流程认证,ASIL-B功能安全的产品认证,而且整个芯片的认证是莱茵认证,这一点在国内也是很少的,这就是我们芯片能够做舱行泊一体的安全基础。
  如果仅仅通过单芯片考虑,这个芯片性能总会到天花板,互联性就很重要。手机芯片是互联高速接口都是为了延展一些设备,比如他们PCie是否能够达到标准速率实际上是有问题的。因为我们以前是做服务器芯片出身的,所以我们芯片整个互联的设计能力很强,两个片子、四个片子互联能力,保证我们的芯片在不同阶段会有不同的组合,达到成本和芯片能力的平衡。
  另外软硬解耦也很重要,不要把软件和硬件紧耦合,比如说一个芯片一定要加上虚拟化才能支持不同的操作系统,这种强耦合是不利于芯片各种应用场景的适配。我们在这方面看到相关芯片已经付出了成本代价包括量产代价,有些手机芯片量产过程需要3~5年才能量产上车,原因是它的软硬耦合度太高,这种情况下一定要解耦。芯片要定位好自己是算力底座,不要去引导芯片就像商品房一样给所有消费者同意精装修方案,实际上短期可行,但长期这不是一个良性环境,特别不适合应用发展剧烈变化的智能座舱和智能驾驶领域。
  除了芯片互联以外,我们怎么应对5nm、3nm更高性能芯片的发展?从车规芯片来说会采用Chiplet(芯粒)的方式,芯粒的方式最大好处是良率提升以及芯粒的重用。所以在这一点上,我们根据不同的异构计算单元采用不同的制程,在国产化基础上逐步做芯粒级的国产化。芯粒还有一个问题就是鸡和蛋的问题,很多芯片公司在做一些子系统的芯粒,我们认为芯粒还是要先出一个鸡再出蛋,包括我们和友商都是做主流SoC的,这种情况下我们拥有了一个相对成熟的大芯片SoC,这种基础上做芯粒相对容易,从软件角度、芯片定义角度和最终芯片交付角度来说,我们都具备基础,所以芯粒是大算力融合发展的最佳选择。我们这里的芯粒和服务器芯粒有所不一样,服务器计算单元相对来说统一,异构化没那么多,不像座舱芯片和智驾芯片,他的芯粒主要是从提高良率和算力扩展角度,比如把他的IO单元、CPU单元、GPU单元反复迭代。对我们来说,我们更多是异构子系统的芯粒,这是我们往后做超大算力融合芯片性价比发展方向。
  二、多域融合车规级芯片应用场景分析
  我们认为中央计算目前一段时间内还需要考量,它的成熟需要集中式智驾、集中式座舱做到大规模量产以后,中央计算才具备很好的应用基础和客户基础,才能适配电子电气架构的改变。电子电气架构的改变每个车厂经常会同时出现好几种电子电气架构,你最后通过中央计算统一,这里面还有一段路要走。
  谈一下舱泊一体,我们芯片具有几个重要特性,一个是功能安全,一个是异构算力,另外一个就是大算力,还要针对于不同的Workloads做的大核、小核分区机制,这种架构的设计目的就是为舱和泊提供融合基础,因为泊并不冲击峰值场景算力,它和行车不一样,如果和行车智驾做融合,它会冲击你的峰值算力和算力分配策略,泊的时候它的算力是在低峰阶段,我们认为舱泊一体是比较好推向市场的,我们现在在推舱泊一体的方案,上个月采用“龍鹰一号”单芯片舱泊一体的车型已经量产了,而且是国际车型。所以,“龍鹰一号”芯片在智能座舱大规模交付情况下,也进入了舱泊一体大规模交付,这一点在国内和国际芯片相比我们都处于领先状态。这个大概可以给客户带来什么收益?可以带来700-1000元人民币的降本增效收益
  这是我们的方案,可以把车内的DMS/OMS/Face ID和舱外的APA/AVM做出来,节省泊车单元、DMS单元、DDR单元,因为我们这个片子里面有两个HiFi5,可以取消外置的DSP。所以“龍鹰一号”在降本方面现在实现了一颗芯片顶四颗芯片的能力,而且是量产验证过的。
  这是单芯片的舱泊一体方案,对于客户是个零成本OTA升级过程,因为原则上整车都会带超声波雷达,那么到了舱驾的融合的时候,高速NOA、城市NOA怎么办?一个是和友商芯片做配合,另外我们自己的AD1000也会在今年底提交参考平台和样片给到所有的车厂,这在智驾芯片领域也是走在前面的。
  三、多域融合车规级芯片算力设计逻辑
  任何融合不能脱离算力的分析,这里有一些算力分析,在座舱域和泊车域需要什么?我说的是运行时不是标称,我发现芯片行业进入车圈以后,芯片行业PPT能力大涨,这个与芯片公司的风格有点出入,芯擎一般鼓励客户做实际平台的测试,所以我今天聊的结果都是规模量产的实际算力供给。也就是说你在运行的时候有50-60K/小时,泊车需要20-30k,单芯片要70-90k,“龍鹰一号”是100k。功能安全岛一定要有,座舱域可能DMS用一下,功能安全显示需要,功能安全通信需要,泊车这块做一个规划算法可能要1-1.5K,总体要达到2K左右,我们是2.5K。
  NPU能力同样,原则上需要4-8TOPs,做舱泊的时候8TOPs。DDR带宽的能力,做芯片不要单纯拼主要算力,拼AI算力多大、GPU多大、CPU多大,其实要拼DDR带宽,如同城市里面如果主干街道和支路宽度不够,每个小区的进出都会受限制,2019年我们定义这个芯片的时候,我们就把它定义成国际主流芯片的1.5倍而且采用了LPDDR5,这样舱和泊才可以同时使用,而且在不影响任何舱的情况下。舱还是高性能的舱,泊车完美的泊。所以我经常说,我们现在是平滑的座舱加上平顺的泊车,在一个片子搞定,而不是减少什么东西。我们经常看到些芯片也在推舱泊,结果发现到泊的时候舱就卡得一塌糊涂,这种片子做到大规模量产,难度是很大的。
  四、芯擎科技介绍
  简单介绍一下下一代芯片AD1000,我们同样用7nm制程,我们会有250TOPS INT8的稠密算力。对于传统严谨的芯片公司而言,算力标称很简单的确定性指标,因为芯片就是0-1的艺术,是一个开关的逻辑,没有什么算力模糊的地方。但是这两年确实大家对于算力有各种标称、各种等效,把一个简单的事情做复杂,所以,我们现在也把芯片算力描述得非常清晰,我是稠密算力、物理算力,如果按稀疏化就是2倍500多TOPs,至于等效算力,那不是芯片公司应该表述的方式。
  同时也可以支持1-4颗的互联,最高可以4颗互联,达到1024TOPS,同样是稠密,如果按照系数来说也是2000多TOPs。今年给到客户的参考设计包括软件、硬件、工具链和相关Demo,促进客户在L3、L2++、城市NOA、高速NOA这方面都能全栈跨越。
  介绍一下芯擎,芯擎是年轻公司,2019年才开始运营,到目前五年时间。去年9月份开始出货,去年底20万,到现在40万,今年我们会冲击1kk,实现芯片人的梦想。我们也有各种投资,不仅仅是主流车厂、主流Tier1包括各种基金,公司在健康成长过程中,我们也是工信部国产芯片的入围名单,希望在今年智驾芯片出来以后,我们的座舱芯片和智驾芯片以及还要推出来的专门针对于大模型的芯片,在这方面给到客户完整的国产芯片解决方案。
  芯擎公司利用可靠性和先进工艺安全性和高算力的优势,我们会在完成座舱芯片“龍鹰一号”以及智驾芯片后,会在中央网关等等方面开始做产品前期导入的工作。
  最后由一句话结束我今天的发言,芯擎的slogan就是“让每个人都享受驾驶的乐趣”,从国产芯片、高性能芯片给大家带来的乐趣。谢谢大家!
  (注:本文根据现场速记整理,未经演讲嘉宾审阅)


报道 日程 顶部