ZKX's LAB

亿咖通智能生态事业群孙晓欣:让人们乐享安全智能的人机互动

2020-07-23新闻8

7月22日—23日,由盖世汽车主办、上海国际汽车城特别支持的“2020首届软件定义汽车高峰论坛”正式举办。本次论坛主要探讨软件定义汽车领域最新的创新理念、技术趋势、现实挑战等热点话题,共谋行业未来发展之道。下面是亿咖通科技智能生态事业群副总经理孙晓欣在本次论坛上的发言:

亿咖通科技智能生态事业群副总经理 孙晓欣

大家好!刚才各位嘉宾讲的都是横展性非常强的东西,我讲一下垂直领域比较深的,用户触达感受比较强的,也是在智能车机里面用的最刚需的——人机交互,尤其是语音的人机交互。

亿咖通科技是吉利战略投资的,但是是独立运营的,主要专注于智能座舱和智慧出行,16年成立,现在有1500号员工,分布在上海、杭州、武汉、大连、北京还有哥德堡。从18年初开始上线的时候,到6月底现在总用户数超过了190万,

亿咖通科技是一家数据或者说科技驱动的公司,我们做很多事情希望能够从数据上去推动一些事情的发展,当你有这样的基数的时候,就知道你的产品方向应该怎么去发展了。毕竟我们做的是智能座舱、人机交互、智慧出行,所以用户想要达到什么样程度的就是我们应该要去做的。

我相信现在大家所有的车机上应该都有语音,我也做语音了很久了,目前所有的车载语音做的都不够好,为什么不够好呢?咱们从它的语音发展史来看一下。亿咖通在2018年建立了一个AI产品中心,它的主要任务就是做人机交互的语音产品,这里给大家分享一下我们对于基于语音或者是基于将来多模态的一种思考。

语音其实很早就有了,在2001年的时候,就有海外品牌的车辆,它全部是本地的命令词,你要说一模一样的话才能给你调动一些声音、屏幕的亮度、窗户。随着时间的推移,我们认为这第一代纯粹是一模一样的,你只能跟着它的这个命令来说。中国第一个里程碑是上汽的,它里面是可以基于本地的,但是不需要你完全跟着它一字一句命令式地去说,你可以加一个感叹词,断一个音都是可以的,这是第二代,在2011年。

第三代也是跨里程碑的,是真正把互联网生态接入整个车机,在2016年的时候眼前一亮。它的语音交互带入了很多服务,所以它还是以云端为主。亿咖通也不例外。我们是2018年年初的时候出的,也算是第三代语音。

然后节奏就逐步加快了,这是我们认为的第四代,第三代的时候还是一个全家桶的方式,就像最早的时候第一款也是用的讯飞的整套方案。那我们就在思考这种全家桶方案对于车厂和用户的触达,不可否认很多累积BAT做得非常好,但是我们要做的是用户真的能够触达的,而不是把整套搬进来。我们加入了自然语言理解,我们把头部企业的服务全部融合在一起,我们也做了非常多的上下文的对话,一些多条线查询、模糊搜索的东西。

第四代的时候我们做了一个探索,因为一个车的行车过程有开车前、开车中和开车后,我们也在考虑如何用语音或者场景把这一整套人、车和生活串在一起,所以我们做了很多调整,包括我们提供了一些语音的服务平台,做了一些这样融合的大脑,不管是在音响、手机钥匙、手机APP、还是车机里面,用一整套方案,也就是说用户的习惯是可以互通的。

这种尝试是基于亿咖通科技自研的NLP,我们做了60多个领域,但有些领域是我们不擅长的,比如说百科类的,搜索公司肯定是百科做得最好的,电商类的显然是阿里,以及现在的腾讯微信要上车。从这个角度来说整个生态,我们希望把别人最好的能够结合起来,能够做到你有我全,我有的比别人的质量更好。

大家普遍认为人工智能懂任何的事情是不可能的,因为这个世界上不存在通用的人工智能,只有专属性人工智能,是做垂直领域的,但是用户就是认为你是通用型的,问什么都知道的,那怎么解决这个问题?我们做了专门的一套语音魔法书,也就是说当用户说一些不懂的东西就记录到魔法书里面,然后通过机器学习再给他推送,我学会你这个东西了,你学会的东西跟用户的IP是绑通的。

我们进行一些自动的标注推送给用户,让他感觉虽然我现在不懂,但是我知道你想知道什么,我下次可以推送给你。我们也想知道到底有多少我们不懂的东西。可以给大家分享一个数据,现在每天的交互量里面超过6%进入我们系统是不懂的,当然随意说或者脏话这种全部过滤掉了,有6%的交互量的确是现在人工智能或者语音助理不懂的,但是那么多的数据的确帮助我们逐步去迭代这个产品。

还有无缝融合第三方的能力,包括我们有百度、美团的功能。从终端用户来说无所谓你提供什么,只要我问什么你就回答什么,这样我们就建立一个生态系统,然后去分类和仲裁,到什么样的服务是最好的,比如说电商类的我们就用腾讯的,外卖我们就用美团的,毕竟他们是专家,你说智能家居做得再好怎么样?既然是京东和小米做得最好的,为什么不把他们兼容过来而要自己去做呢?我们做了一个很大胆的尝试,就是如何把全家桶打散了,花了很多的精力。

当然我们也做了很多的努力,它里面的逻辑比较复杂,我们最后还是把它束缚了一下,什么意思呢?跟你出行相关的查飞机票、查火车票、天气怎么样,这个是可以跨越的,比如说你讲个笑话我给你跨到查股票就没有什么意义了。我们一直认为是人和人的交互,那显然需要多轮跨越式的交互,这是我们在过去一段时间花了相当多的努力去尝试的事情,但这些都是云端的方案,不是本地的方案。

智能音箱我们也做了一些事情,包括手机APP、手表,智能音箱里面可以进行一些车控的查询,比如说问一下车关灯了没有,通过手表、手机APP进行查询,这种对话流全是用同一条网络来做的。

我们再回到主线,刚才就是我们说的第四代,我今天整个逻辑就是这条线,从你必须百分之百跟着它说话,它才懂你说的第一代,到你可以发挥想象力但是关健词不能变的第二代,到了第三代几乎是靠云端然后是全家桶的方案,到了第四代打破了全家桶的方案但还是在云端,这是特别好玩的一件事情。语音用了那么多,我每天的压力特别大,因为售后里面语音的投诉是第一位的,第二位是导航。为什么投诉?我们一个一个打电话去问,最后终于得到了一个结论,是在开车的过程中,它有很多无网或者弱网的环境,因为所有的人工智能目前在应用的都是有网的服务,所以如果无网或者弱网的时候可能就是智障了,这是很难听的一句话,但的确发生了,因为网络的问题造成了用户体验的影响。

因为我们做云端的NLU的能力,所以我把这个能力拉到了本地,在本地实现了,也就是说不管有没有网,就算没有网我查天气都没有问题,因为天气的内容就是预测的内容,你的数据都是可以缓存的,我们做到什么东西?我们想做到一个本地有一个小脑,云端有一个大脑,云端复杂训练,本地负责部署,根据用户的习惯进行调整,有些用户喜欢查天气那就放在本地做,有些用户如果觉得导航是在西南的那就放西南的,如果是东北的就放东北的,我们现在还没有那么牛可以做到人机交互的大脑,但是这个小脑还是可以的。

个性化是我们目前正在做的第五代,这是本地的。如果你用在线的AI碰到网络问题几乎没办法解决,为了保证你的数据安全,上下都要通过HTTP,对你的带宽要求非常高。还有能耗,服务器其实很贵的,谷歌的服务器都是在芬兰,因为那里天冷,微软的服务器全部在太平洋底下,但是现在很多服务器的方案迟迟不能把价格降下来,就是因为它的成本还是比较高的,尤其是深度神经网络你需要用GPU加速,这是很重要的。还有一个就是隐私,在座朋友如果打电话的时候,你手机里面的通讯录大概在云端已经复制一份了,现在越来越重视隐私了,这也是在线技术没法解决的问题。

所以我们就自研了离线的自然语义理解,只要跟天气有关的我们做到本地,不管有没有网用户体验都是保持一致的,并且它可以更低延时,它非常快,本地的操作8百毫秒就可以了,我们希望能够做到端对端的用户体验,半秒钟之内就直接回应了,这是我们的目标,现在计算力也在提升,还有低成本,本地做成本很低的,但是现在很多东西本地一做进去了以后,车是5年到10年的,如果你没有更新语音,这个技术发展很快的,一年可能就过期了,所以我们也考虑了OTA升级能力,这个不是整车OTA,而是像手机应用程序一样的自我OTA。还有高可靠性,这是基于我们对一些用户的投诉抱怨和数据分析,我们得出了应该往这个方向去走。

同时ECARX也在做一些全栈式的语音芯片,因为车载芯片跟云芯片差别还是比较大的。真正在车里面的云助理应该是跟车相关的,如果只是跟手机一样的话就做不到这个很好的体验。如果你要把体验做得很好,算力和算法要有很好的融合,语音是长期在里面一直运行的,要求自然很高。我们也做车规级的,可以升级, 5年、10年都没有问题,这个芯片已经流片了,我们正在做软硬件的调试。

看上去好像ECARX是一个语音厂商,因为没有一家厂商希望是一样的用户体验,包括他们自己的命令、自定义都是不一样的。比如我想说吉利的车好,所以会有一些定制。但每辆车都是不一样的,如果你没有这些工具的话你会做得非常麻烦,因为你要花大量人力物力去做,所以我们做一系列的平台可以赋能主机厂商,做出一些差异化的东西。数据比较多,我们在做数据管理平台,数据过来了,我们进行一层层的过滤,之后很少需要人来做,它都标注完了,然后我们再进行训练,这也是因为我们数据比较多,也有很强大的算法团队在后面做这个事情。

另外我们还有报告,我认为数据是不会骗人的,数据还是能够驱动的,包括用户的触达。用户想要什么东西是非常客观的,所以我们有这样的报表告诉用户是怎么用的,我们可以明显感觉到领克和博越或者下面的用户方式都是完全不一样的。

再回到这条线,第五代就是我们正在做的事情,希望能够在本地端做一些与众不同的事情,在安全性、处理和个性化上,我们做一些特别的事情。有第五代可能有第六代,很显然,第六代我们希望是车载大脑,刚才是小脑,我们希望把多模态的放在车里面,现在所有的自动驾驶都有一个芯片在里面。我个人想法不代表公司立场,我觉得数字座舱里面最可行的就是人机交互,人机交互产生服务、链接和控制,它是一个交互的枢纽。

所以从这个角度上来说,现在做到你听得见、听得清、想得明白、你看得见,这是视觉能做的,我们希望把人机交互变成人人交互。在车载领域,在数字座舱里面能够形成一个个性化的,你自己的车载大脑,这是我们觉得第六代需要去做的东西。因为现在算力越来越强大了,如果要做一个车载大脑的话需要在本地端有很强的机器学习能力,因为所有的机器学习都是在云端,这也是我们想办法突破的地方,如果你做到了本地机器学习才能做到真正的自我进化,而没有任何外来的因素,我们觉得在2021年可能会逐步落地。

第六代我们来看一下,比如说你的听、看、想全部在一起,就是一个AI的车载大脑。第六代以后怎么样?我不知道,为什么?当自动驾驶出来的时候,也就是L4、L5的时候,车内的人机交互会有翻天覆地的变化,变成怎么样?大家都在探索,包括虚拟形象,包括整个布局和各种的传感器,到底是怎么样的形态,其实大家并不清楚。但是我非常清楚的一件事情是,当自动驾驶出来的时候,你这个第三移动空间里面的用户体验完全改变了,不再是一个行车空间,可能是一个会议、娱乐、交流空间或者工作场所。唯一一点不会变的,是语音的操控、视觉的辅助,不管是在第几代的车载AI技术里面,总是会有自己的一席之地。

所以我们希望通过产品的迭代反馈数据的迭代,数据的促进,能够让我们进一步了解到将来在自动驾驶部署非常普遍的情况下,车内的人机交互到底会变成怎么样,大家应该非常有期待,这个东西肯定很好玩。

我的演讲就是这些,谢谢。

#吉利#理念#领克

随机阅读

qrcode
访问手机版