英国查尔斯王子迎娶卡米拉时,读唇者成功破解了伊丽莎白二世与儿子的低语,让女王糟糕的婆媳关系浮现在大众眼前,这可能是「唇语识别」第一次大面积走进大众的视野。
所谓的「唇语识别」,其实并不神秘。早在古代,就有专门的唇语师存在。通过长期的训练,他们具备了观察别人的嘴型,解读其表达语句的能力。在现代社会里,一些听力障碍者们也会使用这种技巧与他人进行交谈,补充听力器官的不足。但随着科技的发展,人工智能在各领域渐次开放,在唇语识别上,机器已经做得比人类好了。
从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术:系统通过机器视觉从图像中连续识别出人脸,提取口型的连续变化特征。随即将连续变化的特征输入到识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。
早在2003年,Intel就开发了唇语识别软件Audio Visual Speech Recognition(AVSR),开发者得以能够研发可以进行唇语识别的计算机;2016年Google DeepMind的唇语识别技术就已经可以支持17500个词,新闻测试集识别准确率首次达到了50%以上。
在深度学习技术出现以前,对于唇语识别的研究主要从三个方面来进行,分别是嘴唇的定位与检测、唇语特征提取和唇动识别。
其中,嘴唇特征提取是唇语识别的关键,将连续变化的特征输入到唇语识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句,提取出的特征质量直接影响着唇语识别的准确性。
随着机器学习方法在语音识别领域里取得的巨大成功,尤其是隐马尔科夫模型(HMM)的应用,根据唇语识别研究和语音识别的相似性,出现了大量的HMM应用在唇语识别领域的研究成果。
在非特定开放口语测试中,目前的通用识别准确率已经在70%以上,而在金融风控、车载、智能家居等垂直场景下,已达到超过90%的准确率。
人类费尽心力开发研究人工智能,提高唇语识别的准确率,有很多广泛的用途:比如应用于金融在线业务的生物识别、噪声环境下辅助语音识别、辅助听障人士交流、体育赛事暴力语言识别等多个领域,这些都是有着实际意义且颇为重要的应用场景。
自出现唇语识别技术出现起,就有声音说唇语识别是语言交互的高阶战,甚至可能带来一场革命。但在人工智能大范围落地的今天,国内从业者扎堆涌入的,大多为语音识别、图像识别、人脸识别、机器翻译、无人驾驶、虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,唇语识别相对冷僻。
但业界的常识是,人工智能未来将会出现一个数万亿美元的巨大市场,在面对具体乃至细碎的应用场景时,人工智能的细分程度,势必如百年前的电力那般触角庞杂。
而广袤的嫁接空间也意味着,从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别就是其中之一。但就AI行业目前面临的挑战而言,在AI的产业链中,拥有场景数据的需求方和拥有算法实力的开发者处于这条链条的两端,双方语言体系的鸿沟、中间环节的缺失、思维理念及认知的不同频,都增加了AI落地的难度。
而钛灵AI算法市场的出现,打通了AI产业上下游,不仅能给帮助AI服务商提供展示和交易的平台,还能为AI需求方提供多维度的算法能力、硬件产品、解决方案、数据服务等。钛灵AI市场通过依托国际领先的AI产业链优质资源,赋能超百个细分行业,涵盖智慧城市、自动驾驶、智能制造、工业、医疗、新零售、环保、物流、消费电子、教育等多个领域。