ZKX's LAB

百度输入法拓宽方言覆盖,提升重口音识别,让长辈热爱交流

2020-10-21新闻11

中国语言文化源远流长,方言众多,为了沟通方便,我们生活中会尽量使用普通话,不过夹杂“南腔北调”的不同口音依然会造成现实中的交流困惑。为此,百度输入法凭借领先的AI技术升级现有的语音识别功能,开发出可听懂多地方言的“方言自由说”,精准识别重口音普通话,让日常聊天写作的文字输入速度快到飞起,即使普通话水平有限的老年人也能流畅使用,成为目前支持AI全感官输入方式最为友好的输入法。

相较键盘和手写输入,解放双手的语音输入有更广阔的发展空间,驾车时说出目的地就能导航,游戏中打字无需费时手工键入,就连文稿也可以口述转写,如此便利的语音输入不仅老人喜欢,年轻人也逐渐依赖。而语音输入法发展并非一帆风顺,至今仍有环境降噪、方言、功能单一等问题有待解决,若想占据手机端高频率输入方式,唯有依托强大的研发实力和技术支撑。

百度输入法之所以成为行业翘楚,凭借的是其拥有世界领先的语音技术,早在2019年,百度发布流式截断多层注意力建模(SMLTA),将在线语音相对准确率提升15%,超越行业最优竞品15%,可提供准确率超过98%的语音输入服务,并且离线语音的识别精准度也已达到在线语音同样水平,用户在无网络的情况下也能流畅使用语音输入,解决了常规语音输入法经常被吐槽的断网假死情况,极大地拓宽了语音输入使用场景。

此外, “全感官输入2.0”的概念也是百度输入法率先提出,一机可集成键盘输入,语音输入、手写输入、表情输入(AR表情)、动作输入(凌空手写)等多种输入方式,为用户带来多元化“全感官输入”的AI输入体验。而此次推出“方言自由说”可以看作是 “全感官输入2.0”持续完善的成果体现,“方言自由说”内新增河北、昆明、武汉三种方言,对原先支持的福建、广东、湖南、江西、四川、吴语等口音普通话也作了大量升级,能够精准识别口音更重的普通话。可以说在输入法行业里,将语音识别玩得最溜且有深度的只有百度输入法。

那么如何开启语音输入功能呢?方法很简单,在任意输入界面下长按空格键可进入语音输入面板。开启语音输入功能无需改变日常键盘使用习惯,其操作是极为便捷的,并且该界面有所需的语种选择功能,包括普通话、中英自由说、方言自由说、中译文言文、粤语、四川话、东北话、河南话、山东话、西安话、合肥话、英语、日语、中日韩互译都在一个菜单中,其语音识别不仅支持几乎所有国内地域方言,有了百度输入法的加持,智能手机可摇身变成一台翻译准确率和速度可媲美专业产品的翻译机,例如说出中文,屏幕上会根据选择显示英文、日文或是韩文,如此便捷的零费用翻译软件,必然会成为生意洽谈、旅游时更为经济实用的翻译利器。

当然,百度语音输入法的功能不仅于此,还有非常多的亮点技术在内,其中令人深刻的代表有语音速记、语音互益、语音指令、长文本语音输入等功能。相比很多按字节收费的语音转写工具,百度输入法直接砍去了语记计费门槛,不仅零费用,而且语音速记支持单人和多人模式。其技术特点是语音转换为文字的速度更快,在多人模式下可通过声纹识别自动标识不同的发言人,为后期稿件的校对减少很多整理环节,节省珍贵的时间成本。

更有趣的应用当属语音斗图功能,顾名思义,只要说出想表达的大概意思便会出现语义相关的斗图表情包,开启的方法是在语音输入界面点击“斗”字图标,随后用语音说出关键词,例如“打你”,输入法的显示框会出现诸多相关的搞笑表情包,用来聊天斗图可免去手动收集之苦,出口成图,用速度和量级碾压对方。

令人意外的是百度输入法内引入了"小度"智能语音助手,并让“小度”充当了文秘。“小度”的权限很大,除了删减增添文字,还可以进行文档内的批量操作,以及执行更多在智能音箱端的类似语言指令,可拨打电话、查询号码、咨询天气等等,有了“小度”加入,手机智能X2,一句话可让工作变得轻松高效。

为了提高识别准确率,百度输入法内置了场景化识别引擎,能够针对不同应用采用对应识别引擎。例如在地图类APP中会关联搜索地名、景点相关的数据库;游戏类APP则会匹配游戏术语,如此来自动区分智能语音场景,从而提高语音识别准确率。

用得越多,越发觉得百度输入法处于行业领先并非偶然,在开启极简语音模式后,对缩小在直播、游戏界面上的语音条感觉贴心,在不遮挡画面的前提下,能够实现快速输入,这种人性化改进让百度语音输入法带有令人喜欢的黏性。

“全感官输入2.0”的神奇体现在多方面,语音输入只是其一,手写输入同样惊艳,其识别能力无视潦草,能够将看似一团乱麻的手写体精准还原成打印体。百度输入法的高效手写识别得益于成熟的概率择优技术,其原理是每一个字都会通过8方向特征提取,这些特征经过神经网络模型筛选,最终给出概率最大的结果显示。从实测结果来看,不论是单字识别,还是叠写、连写输入的快速识别,手写识别准确率已达满值。

百度输入法的AI功能再升级打破了贵精不贵多的传统软件设计理念,集成丰富的高分功能,以行业首发支持离线语音中英自由说,来弥补常规语音输入法依赖网络的缺陷;用“方言自由说”提高沟通效率,打造成熟的AI全感官输入,带来的多元化输入体验,让长辈也能“零成本”流畅交流。

#百度#AI人工智能

随机阅读

qrcode
访问手机版