智东西
编 | 子佩
智东西10月20日消息,轻轻滑动手指,我们能轻松地阅读文字、图片、浏览视频,获取各种各样的信息,这一切都依赖于我们的视觉感官。但对于视力有障碍的人而言,却没有那么简单。
早在2017年,微软就发布了移动应用程序Seeing AI,试图分析周围环境并通过语音为视力缺陷者带来帮助。基于神经网络,这款应用不仅可以翻译文本,而且可以识别人物和货币、扫描产品条形码,对整个场景或者导入的图像进行简单的描述。
而9月28日,微软在arXiv平台上发表了有关自动生成图像描述机器学习模型的论文《基于视觉词汇预训练超越人类表现的新颖的对象描述(VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training)》,性能超2017版Seeing AI模型两倍,并将运用在Seeing AI以及旗下众多软件中。
论文链接:https://arxiv.org/abs/2009.13682
一、基于弱监督学习,跨越文本图像两大维度
基于图像生成文字描述,对于人类这是个很简单的问题,但对于机器却非常有挑战性。因为它既需要理解图像的内容生成标签,又需要将这种单个标签串在一起,转化为人类可以理解的自然语言,结合了计算机视觉和自然语言处理两大人工智能领域的热点问题。
微软的研究人员提出了视觉词汇预训练(visual vocabulary pre-training,简称VIVO)的技术,即通过弱监督学习方法对图像描述模型进行预训练,其中包括两个阶段:预训练和微调推断。
基于大型Transformer神经网络,VIVO可以在没有文本标签的数据上对文本和图像的多模态进行预训练,令模型学会识别图像中的常见物体和生物并标记它们,并建立起将文本和图片联系起来的视觉词表。
视觉图表就是一个图像和文本的联合特征空间,语义相近的词会聚类在一起,例如金毛和牧羊犬、手风琴和乐器等。
Azure AI认知服务首席技术官黄学东解释说,视觉词表的预训练就像孩子们阅读图画书,图画书中每个单词都会与图像联系起来,比如一个苹果的图片下面有个单词apple,一只猫的图片下面有个单词cat。
视觉词表的预训练本质上就是训练系统完成这种动作记忆。
建好词表后,进入第二阶段微调推断,即通过已标记好的图像进行检测,让模型融合预先训练好的视觉词汇信息,再自动生成通用的模板语句。如生成模版语句是[A]持有[B],并用获取的对象标签填充模版,以得到标题,如“人持有狗”。
推理阶段则通过提取区域特征检测标签完成自回归模型。这样,即使出现词库中没有的词,也能生成正确的描述。 二、性能超原版两倍,新模型将投入使用
新模型不仅在测试图像描述性能的nocaps基准测试中排行第一,性能也是先前图像描述模型的两倍。
这种很好的泛化效果很大程度上归功于模型预训练中学习的视觉词汇,它将语义意义相似的视觉对象或区域映射到离散语义空间中彼此接近的特征向量中,而不是依赖于已经标记好的图像。所以该团队表示后期的主要任务会落在采用其他大量的视觉数据,提高视觉词汇的质量上。
现在,该模型已经可以在Azure认知服务的“计算机视觉”软件包中获取,并将于今年晚些时候安装到Windows、Mac以及网页上的Word、PowerPoint和Outlook中。
其致力于提高视障人士交流、浏览信息的应用程序Seeing AI,也将通过该新模型从阅读文档、识别场景、人物动作等方面全面提高其识别的准确率和用户体验。
结语:不让任何人被科技“淘汰”
微软AI平台小组的软件工程经理Saqib Shaikh上周解释说:“被描述为‘可以替代文本’、自动生成描述的新模型将填补视力缺陷人士无法参与视觉世界的缺憾。理想情况下,社交媒体中所有图像,甚至每个现实生活中的人都该有替代文本,方便盲人浏览信息并参与对话。但是可惜的是,现在我们还无法实现。”
微软发言人也补充说:“图像描述的这一突破提高了Microsoft 365中图片描述的缺陷,并使视障人士更容易访问视觉世界。”
如同几个月前,老人因为不会使用健康码无法出行的问题一样。在人工智能飞速前进的当下,也会有人因为视力、年龄等各种各样的原因不仅无法享受到科技的便捷,还会因为不能使用智能设备,遭遇生活中的障碍,甚至被时代所“淘汰”。
此次新模型投入使用的效果会是怎样,语音辅助能否真的让视障人士也能成功冲进“互联网海洋”,依旧是未知的。但关注到这部分人群的需求,切实地用科技去解决他们的问题,才能真正地让智能时代不落下任何一个人。
来源:The Register、Microsoft