张晴晴：对话式AI数据推动智能座舱语音交互发展

2021年6月17日-19日，由中国汽车工业协会主办的第11届中国汽车论坛在上海嘉定举办。站在新五年起点上，本届论坛以“新起点新战略新格局——推动汽车产业高质量发展”为主题，设置“1场闭门峰会+1个大会论坛+2个中外论坛+12个主题论坛”，全面集聚政府主管领导、全球汽车企业领袖、汽车行业精英，共商汽车强国大计，落实国家提出的“碳达峰、碳中和”战略目标要求，助力构建“双循环”新发展格局。其中，在6月19日上午举办的主题论坛“智能座舱创新技术论坛”上，爱数智慧创始人兼CEO、中科院声学所研究员张晴晴发表了主题演讲。以下内容为现场演讲实录：

各位好！

我是来自北京爱数智慧科技有限公司的创始人CEO张晴晴，今天之前大家讲的报告更多都是围绕算法智能化，包括产品在车行业的应用。

我也听到这段时间有很多车客户和企业都在提到数据。今天讲的报告是围绕数据，讲对话式AI数据推动智能座舱语音交互。

第一，公司简介

第二，智能座舱发展。

第三，智能座舱数据解决方案。

一、公司简介。

爱数智慧为行业希望做智能化转型的车企提供相应底层数据解决方案。围绕人机交互的场景，围绕场景里的核心三个点：语音识别、语音合成、自然语言理解，这三部分所需要的数据都有相应的提供和解决方案。

核心服务有相应标准训练数据产品，以及针对车厂在智能化转型过程中围绕智能座舱、智能客服、短视频营销等其他方面做的方案咨询，同时会围绕相应落地场景体迥数据定制采集和标签化服务。

最后为车厂提供可以进行私有化部署的数据处理系统。

公司成立到现在五年的时间，已经为头部车企、车行业提供解决方案的算法公司、造车新势力提供相应数据解决方案。

这是我们公司的核心人员，我自己在人机交互领域有17年的相应经验，曾经是中科院声学所博士，法国国家实验室博士后，也在语音、语言、对话式AI里参与到很多车企解决方案的落地当中。

二、智能座舱发展。

智能座舱已经发展了很多年，最早时候主要是对硬件、打开空调或者车窗调低调高的命令控制的运用，现在希望人和机器有更多类型的交互，包括对话式自然的沟通，比如说调高温度的时候，可以说我感觉很热很冷等自然式对话式的交互。

除了语音交互外，现在也开始进入到多模态状态，包括视觉、图像等都可以围绕多维度对用户行为进行分析，是智能座舱很重要的发展方向。

其中，语音的交互方式本身是信息的主要载体，是座舱里非常重要的落地点。同时由于在开车行进过程中，最早的方式还是用语音交互的方式保证安全。

在座舱语音交互里，能够用到语音的点是非常多的。一些比较常见的导航、电台、内容搜索都会用到语音，包括对车里硬件设备进行交互可以用到语音。如果出现异常状况，比如需要紧急呼救求助的状况也需要涉及到语音的需求。

有三个主要会用到的核心算法：语音识别、语音合成、自然语言理解。

简单来讲，语音识别就是我们说一句话，比如说“帮我调低温度”，机器需要识别我说这句话的声音，把它转换成文字，对机器来讲要听得清我在说什么，“听得清”。

听清了之后会对已经识别出来的文字理解意图是什么，意图是调节温度的情况。这种情况需要把意图识别理解出来，“听得懂”。

下一个环节，机器需要给我相应的回馈，用语音合成播报音的方式告诉我机器已经完成了相应的动作，“说得好”。

这三个点都在应用，同时也有和明显的痛点和问题。比如站在语音识别角度，最大的点是人在说话的时候是有口音的，很多人说我说普通话不是很标准，甚至有的人普通话都说的不是很好有方言说话。

这种情况下机器不一定能听得清在说什么，所以识别率会很差，口音是很重要的点。同时因为座舱里的噪音会带来识别率进一步下降。

在语音合成里，希望机器播报出来的声音是很自然的，甚至可以千人千面由我来挑选的。但目前我们所看到的情况是机器的合成声音很机械不自然，不像人在说话，代入感不好。

自然语言理解是最大的难点，如何理解人在表述同一个意图的时候用句的方式千差万别。像我想调节温度的时候，有可能我根本没在说调节温度，我在说我感觉我很热，这是对意图很重要的理解点。

对异常表达的理解是座舱过程中对语料扩充要尽可能丰富，通常来说这部分做的不够好，也可能会导致机器完全无法理解。

目前这三部分在落地的时候都会有痛点，通常来讲大家本能的第一反应是解决方案没有做好是算法不够好。而事实上过程中会发现人工智能智能化的过程核心是三个基础部分构成，由算力、算法、数据构成。

在其中，相较于算法来说，数据的影响力才是根本的地方，我们有对比分析过，基本上不同的孙发，但是用的是同一个数据，你的算法差异度不会很大。但如果你是同一个算法，数据的清洗和选择不一样，结果是截然不同的。所以系统的增益主要来自于数据部分。

数据并不是大家所想的那样，从人发声的时刻收集到语音后，可以把语音送到智能化系统里去了。其实不然，过程中需要经过数据结构化清洗的过程，数据有点像原油，原油被真正加到汽油里的过程需要经过很多工序，最后才能得到真正可以用的型号。

数据也是一样的，从最开始左侧的原始音频走到右侧送到系统里迭代的数据会经过很多专业步骤，每一个步骤的处理好坏与否都会影响到最后模型的性能。

对数据来讲，结构化的“质”决定了智能系统的性能。除了“质”以外，很重要的点是“量”。

蓝图的这条线是大家在智能化过程中主要用到的深度学习的算法，而红色的这条线是过去比较传统的浅层学习的方法。大家看蓝色的这条线会发现两个点，首先看到趋势，横坐标是送到模型里的训练数据量，纵坐标是识别的性能，送进去的数据量越多，识别的性能越好。

在过程中，最上面的点是目前属于互联网的头部公司每年在AI上所投入的结构化数据量。而下面的点是行业客户目前所投入的量级。

基本上会看到量级的差异比较大，像互联网型公司，每年增量在结构化数据上投入的小时数在10万小时量级的增量数据量。所以，做人机交互的互联网型公司的识别性能会更好。数据量对模型性能影响也是非常关键的。“质”和“量”都是需要考虑的点。

大家会想到数据只要往里加就可以得到更好的性能，是不是要投入很多成本才有可能获得相应的收益？其实并不见得大家要投入这么多才能获得相应的收益，在数据行业里提出了“数据配比二八原则”，在车企车的行业里，80%的数据是共性数据，这些数据可以由标准化的数据集构成为大家搭建，而这部分数据可以理解为完全的一次性投入，一次性投入之后可以用在很多功能点上的迭代优化里。真正需要定制的数据只在总量里占有20%就够了。

真正投入的总量从时间富力来看，投入成本并不高，获得的收益也是不错的。

给大家一个比较形象的数据来呈现，左边这张图体现的是车的座舱里有4个场景和功能点，每个功能点为了迭代模型的性能，现在不遵循二八原则完全来定制的话，现在有的车企也还在用这样的方法，相对来说比较安全。

但用这样的方式会导致每个功能点都要投入1000小时，总量投入了4000小时的成本，但单一看每个功能点只享有1000小时的训练数据量，量是有限的。

反观右边的这张图，一个是导航，一个是音乐控制，一个是硬件控制，都可以。但这会伴随对话式，会涉及有带口音的，有方言的，这些数据作为底层数据可以共享，如果拿出80%的数据进行共享（1600小时），在每个功能点上仅投入400小时定制数据量的时候，最后会发现总投入成本只有3200小时。但是在每一个功能点所享有的训练数据量却是2000小时。投入的ROI会比左边的纯定制高很多。

使用标准数据集在于立木等于可取，数据的合规性、安全性会得到更好的保障，整体帮助车企更快速地进行智能化迭代优化过程起到很好的推波助澜作用。

三、智能出行数据解决方案。

目前爱数智慧拥有全球第一大对话式训练数据集，手上一共有15万小时全部标签化好的数据。什么叫标签化好的？数据都是进行多维度标签，除了有语音对应的文字外，还会有性别、年龄区间、口音地域等多维度标签帮助大家从更多维度对模型进行优化。会含有对话式、命令控制朗读式的数据。

特别把语种分别情况列出来，在中国境内有很多方言数据，现在车企在落地过程中方言是很头痛的问题，大家可以考虑使用标准数据集，帮助大家快速进行初始迭代过程。特别提到中英文混合的数据，这种数据在车的座舱里非常容易出现，经常做电台、音乐交互时会涉及到中英混合的现场，比如说FM199.2，像“FM”就是英文部分。这种现象在很多物联网范畴里都会出现，很好的解决方案是通过标准训练数据集帮大家快速补齐能力。

车企有在出海，“一带一路”、欧盟等地区都有。特别呈现外语的数据基础能力，比较热点的大语种都有覆盖。

针对目前在车行业里涉及到的几个主要场景给大家做的训练数据产品推荐，有详细地列出来包括应用和涉及到的技术，包括会有哪些关键的问题，比如说有方言识别、口音识别、数字识别、唤醒词等等，对应的数据推荐。有详细的产品列表，大家感兴趣随后可以到展台上进行交流。

智能客服和营销是车行业比较关注的，现在有的车企跟我们问询除了线上营销外，还涉及到店面线下营销的需求，在这部分给大家分类做了相应数据产品推荐。在线上主要是用到电话信道数据，在线下是通过面对面对话数据帮大家进行定制优化。

（3）会议场景部分也会有车企应用感兴趣。核心是对话数据的解决，所以有做相应的推荐。

对数据服务企业来讲，数据安全和合规性是立命之本。在这方面不断投入，爱数智慧是国内第一批拿到ISO27701认证的数据服务商，27701是全球最新的个人隐私认证，一直跟随国外的GDPR以及国内的数据安全法，在数据处理上遵循国际国内的最高标准。

各位都有自己的私域数据，从安全角度来讲数据最好能握在各位手上，最好不要离开自己的服务器。针对这种场景提供相应数据处理系统的私有化部署能力，展现了三个数据处理平台：

（1）语音标注审核平台。主要针对交互、电台等声音处理，可以提供私有化部署及相应服务。

（2）文本标注审核平台。主要涉及到句式的扩充，这部分会做意图标签化，用文本来解决。

（3）音频/视频多模态标注审核平台。今年开发了新的多模态标注审核平台，可以在平台上同步处理音频及对应视频，做很多高维内容选择，目前处理的最高维度接近1000倍维度的数据。

将部分数据，特别是车行业里把车的噪声数据及车内语音交互式数据放到了今年发布的数据开源社区MagicHub.io，大家感兴趣可以到开源社区里进行相应数据下载和试用，如果有更多感兴趣的欢迎咨询我们。

今天我的报告就到这里，谢谢大家！

（注：本文根据现场速记整理，未经演讲嘉宾审阅）