邢猛：面向智能座舱的多模感知技术及交互设计思考

2021年6月17日-19日，由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。站在新五年起点上，本届论坛以“新起点新战略新格局——推动汽车产业高质量发展”为主题，设置“1场闭门峰会+1个大会论坛+2个中外论坛+12个主题论坛”，全面集聚政府主管领导、全球汽车企业领袖、汽车行业精英，共商汽车强国大计，落实国家提出的“碳达峰、碳中和”战略目标要求，助力构建“双循环”新发展格局。其中，在6月19日上午举办的主题论坛“智能座舱创新技术论坛”上，科大讯飞汽车事业部高级产品总监邢猛发表了主题演讲。以下内容为现场演讲实录：

谢谢王教授，感谢王教授和论坛的邀请。如王教授很多，给我们科大讯飞合作机会，更是产学研深度的合作才能推动座舱进一步深度发展。

今天我分享的主题是“面向智能座舱的多模感知技术及交互设计思考”。

科大讯飞提得最多的就是语音，为什么今天不说语音呢？语音一定要说的，但未来语音到多模态一定是趋势，科大讯飞进入语音行业还是比较早的，十多年了，从语音不可用、可用、不好用、好用，一直在做。应该怎么解决？从语音到多模态一定是未来的发展方式。

现在有很多人在说多模，多模是什么呢？是不是一堆传感器堆在一起和用户做交互？是也不是。

今天带着自己的思考和大家交流。

一、语音。

怎么为用户更好地服务，怎么占据用户的时间，怎么在时间内给用户提供更好的服务是诉求。诉求在车内会更痛，每天在车上待了将近两个多小时，你会发现以前没有机器、交互的时候在车内是蛮枯燥的，有人陪你聊天蛮好的。智能网联越来越发展，很多东西都已经上车了，娱乐、导航、LBS、停车，现在感觉功能还不够，还在逐渐堆功能。

这么多功能上车，对用户来说到底是幸福还是负担？这是我们深深思考的话题，做了这么多功能，从语音、服务，给用户提供的功能他喜不喜欢？这是我们思考的问题。

怎么给用户提供更好的交互方式？让他们用起来更舒服。用户接触交互，信息输入83%来自于视觉，11%来自于听觉。但信息输出第一步肯定是靠语音、语调。

但在车里，车里天然曲线性和受限性，把视觉和听觉的平衡型打破了，在车内很难全靠视觉来做，所以语音非常重要。

今天很多嘉宾分享的语音痛点问题我们深有感触，所以总结出了语音交互的痛点问题，这也是对这些问题深入思考逐步解决的事情。

这么多年，行业、科大讯飞围绕为了用户提供更好的语音交互持续做。但真正想把语音交互闭环做下来，让用户在语音交互闭环下用的更爽更流畅。行业内很多客户想切断链条，切断后加入更多优势因素，都没问题，就看怎么切入、怎么融合，把更多的好资源融合在一起。

技术是解决问题的基础，是必要要素，但有了技术不一定全部解决用户的问题，用户要的是交互、体验、服务，怎么把交互做好也是我们思考的问题，特别在车内。

车内首当其冲的是安全，所有的技术和交互是满足一定目的，但是对车内环境首先要保证安全，还有很多，像简单、智能、人性等等。

举个小小的例子，在车内语音交互，以前是按键、语音唤醒。

比如说“飞鱼”是科大讯飞的交互产品品牌名，我们和飞鱼说：飞鱼，你好，我想去喜来登酒店。”一堆一大还是能帮助你完成，但是足够简单吗？足够自然吗？随着用户的使用不一定，怎么解决问题？一句话解决“你好飞鱼，我想去哪”。这在行业里叫做One-shot。

但用户发现在这件事情上还需要花很长时间，我的目的就是去喜来登酒店，可不可以有快速表达的方式？喜来登酒店。用户说完之后，马上可以反应的解决方案，像行业里的可见即可说。

但用这种问题解决方式是不是更好？能不能把语音的优势发挥出来？不一定，语音交互最大的优势是穿透力，所说的“穿透力”是有三个用途用一句话来表达，用一句语音把穿透力打穿是最大优势。

可见即可说在某些场景下能解决问题，但并不能把语音的最大优势发挥出来，看、点、说都是一步，并没有把语音本质的问题发挥到最大。该怎么做？有很多跨场景的免唤醒，场景完全是穿透式跨场景的，上句说“喜来登酒店”，下句话说的是“来首忘情水”。可以看到，语音交互把简单、自然发挥到极致。

说一下智能和人性化，对智能化产品认知不足的人认为智能化是你能跟我说话就很厉害，但如果对智能化认知很足的用户就知道智能化远远不止这些。

举一个小小例子，我儿子叫邢子睿，有一次我玩用户定义，我问邢总是谁，我给我儿子演示，他会说这个很智能，既然你知道我的名字你也知道我的信息，他高兴得不得了。

把智能化、个性化释放给用户定义，让他定义自己的智能化，也许他能找到自己的感觉出来。能不能让用户参与智能化、人性化的设计？在产品上在按照这样的方式做，让他定义对话，定义他认为好听的模式、形式等。

二、多模。

从语音到多模一定是趋势，不可能依靠语音解决所有问题，也不能解决所有问题。以人-车-厂为驱动的多模应该怎么做？

汽车是非常复杂的工业集成品，在车内是集多种非常先进的传感技术于一体，有麦克风、摄像头、雷达，现在很多玻璃也有智能化了，以及音响，车内的智能设备非常多。车是人工智能最好的舞台。

车的属性慢慢发生了变化，车不仅仅是车，传统的数据车都是有的，车的数据没变，但随着智能化需求发展后会对人的需求有进一步的释放。我在车里有更多的诉求，我要办公，我要娱乐。对人数据的采集一定是未来越来越重要，会有场，场接触的空间也会多。人、车、厂的数据是大平台，采集了很多数据，是移动空间。

有这种思考以后多模感知的融合一定不是单模的，多模高感知技术融合。其次多维数据更好地协同，目的是把用户体验、交互体验提升。

这么多传感器、数据加在一起，对客户来讲价值是什么？智能化是一个，但对客户品牌的价值提升，更多商业模式的探索有没有更好的途径？一定是有的。

大家认为苹果手机是卖手机的吗？也许是，也许不是。

大场景架构要定义“生-光-电”多模态融合，车上有DMS摄像头、麦克风、手势，当用户有微小细微变化的时候，比如说打个哈气会知道你有变化，给你推荐导航等语音触发。甚至用户手指一下说“去那里”，马上会可以导航过去。

DMS摄像头、语音麦克风、手势传感器结合在一起，用户会感觉你对我秒懂，不需要做过多解释，更多传感器在一起融合才能把交互做得更完整。

前几天国家全面放开三胎了，车越来越多，空间越来越大，车里有这么多家庭人，属性肯定是不一样的，用车的需求也是不一样的，能不能让车里的人同时独立交互。交互之后汽车的反馈也是独立的，相互之间不干扰。主驾就反馈导航，儿童给娱乐反馈。语音交互和声音交互座舱声音管理一定是一体化协同的。

为什么不说语音？语音肯定是非常重要的环节，下一步从听、说、看、显全方位和用户感知在一起。不是简单的把功能1+1+1加在一起，而是每个环里的交叉部分是非常关键的，这部分恰恰是每个领域都解决不好的问题，而交叉问题可以很好地解决。

看具体的案例——多模态免唤醒。

免唤醒跨场景多意图的语音透传式的交互非常重要，在车里做交互会发现未来车里有很多人，到底是通过人交互还是通过机器交互，是和谁交互呢？要做区分。怎么做很好的区分？在视觉上是不是有融合进来？我知道你的视线，就知道你是在和机器交互。

还有一些场景发现你的嘴唇有没有动，如果没有动突然出现声音说明你没有说话，就是干扰。视觉和语音结合在一起，达到多模态免唤醒交互，把在车内交互的可靠性、自然度、连贯性做得更好。

虚拟形象，就是传统语音波动，展示的就是波动条。需不需要人配合语音做表情？肯定是要的。因为语音是有情绪的，它高兴了、悲伤了，在表情上要不要和语音做同步规划？也一定要做。从多模态合成到多维度合成，多维度合成是情绪的面部表情表达和情绪语言表达展现在一起。

看一下数据，车内数据平台、场景、用户、汽车有很多种数据，怎么把数据很好地融合在一起？中科创达做了场景引擎，我们也在做，很多行业都在做。

还要做深度语义理解，不仅仅是文本，知道你的图像、视觉、语音等，要把深度语义理解做出来，给你的对话逻辑反馈一定是更加智能的。

一个女士开车，也许在车里响各种声音，很多司机都不知道是什么意思还在继续往前开，不知道该怎么做。出现这种问题的时候系统、语音助理能不能很好地和他交互，告诉他汽车当天发生什么事情了，是继续开不要关注他，还是把车停在一边应该做什么事情。对于车、对于人、对于安全、对于交通系统一定是很好的保证。怎么把汽车的知识图谱和汽车本身相关的东西给用户构建成更好的交互是我们在思考的事情。

怎么给客户创造价值？语音助理的屏在中空位置，每天和用户打交道，他就是深度的用户者，后面是汽车、厂商、品牌，能不能很好地连接在一起？车有很多支持，能不能很好地串在一起？一定是有的。

当车、数据到一定阶段该保养了，你又知道用户有这样的需求，4S店又有这样的服务，在恰当的时机给用户恰当地提醒他一定能接受。对主机厂来说，对客户来讲，用户的深度转化率会提升。

简单看一下科大讯飞，6月9日刚过完20岁生日，总体来看科大讯飞现在属于青年期，还在茁壮成长，希望未来科大讯飞大屏智能行业可以发展更好。

有两个国家平台，还有一个是国际对科大讯飞的评价，6月14日获得了福布斯创新奖。

这都不是关键，关键的是可以通过趋势看到国家政策、行业趋势对人工智能的落地，以及落地的成果取得了阶段性的阶段，下一步是进入了真正大规模的推广阶段。

科大讯飞在人工智能行业做持续创新，科大讯飞对自己的要求希望从98提升到99，甚至是99.5%，这是作为最核心技术创新企业不能忘记的初心。

看一下行业内服务的现状，讯飞在2019年、2020年67%-70%的语音交互场景都是客户提供的，交付的项目1000多个，累计装机2300万。

很有幸参加会议，我们要多模，产业、行业、企业在一起就是多模超脑融合的创新之旅，本身就是多模。

科大讯飞持AI之技，携手行业生态，一起打造智能汽车出行体验。

谢谢大家！

（注：本文根据现场速记整理，未经演讲嘉宾审阅）