近日,浙江大学微纳电子学院丁勇教授团队和Mohamed bin Zayed University of Artificial Intelligence(MBZUAI,默罕默德·本·扎耶德人工智能大学,全球第一所人工智能大学)执行副校长邵岭以及助理教授戴行团队合作,荣获计算机视觉和机器学习顶会ECCV 2020 C4AV(Commands for Autonomous Vehicles)挑战赛的第一名和第二名。
ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议),每两年举办一次,和ICCV和CVPR并称为计算机视觉三大会议。此次参加的ECCV 2020 C4AV(Commands for Autonomous Vehicles)挑战赛是由欧洲顶尖名校KU Leuven(比利时鲁汶大学)主持,为了推进自然语言和视觉共同理解领域研究而举办的一项重要赛事。
丁勇教授团队2018级硕士研究生罗述杰是本次赛事的参赛者之一,他告诉小编,本次挑战赛设置了在自动驾驶场景下的语言和视觉共同理解的任务。在驾驶过程中,乘客给出一个需要由自动驾驶汽车完成的命令,每个命令都最终指向一个由车载摄像头可见的物体。挑战的任务是检测出命令中所指代的物体的位置和尺寸,便于自动驾驶车辆做进一步的操作。如下面示例,展示的就是通过指令来找停车位。
Turn around and park in front of that vehicle in the shade.
(转向,把车停在阴影中那辆车的前面)
You can park up ahead behind the silver car next to that lamp post with the orange sign on it.
(你可以把车停在那辆银色车的后面,就在那个带有橙色标志的路灯旁边)
罗述杰说,本次赛事主要难点有两点:首先是如何处理跨模态的特征,即如何有效地通过自然语言描述检索出图片中的物体;其次获得高性能的解决方案,还需要解决transformers模型加深时难以训练的问题。
在获得第一名的方案中,丁勇教授团队利用BERT模型融合视觉特征和自然语言特征,并创新性地采用堆叠模型的方法将知识有效地从浅BERT模型转移到深BERT模型,成功缓解BERT在加深网络时需要从头训练以及训练困难的问题。
在第二名的方案中,则是巧妙地把视觉特征和自然语言特征分别用transformers的编码器和解码器来处理,在保证两个模态的特征具有很好的独立性的同时可以充分融合,在没有预训练transformers模型的情况下获得了优异的性能。
随着这些技术不断优化和产业化,未来社会,我们只需要动动嘴皮,就可以让车辆行驶到精准指定的位置,这该是多么酷炫的事情!
据了解,丁勇教授所带领的自动驾驶课题组专注于自动驾驶感知领域研究,包括激光雷达、双目摄像头、单目摄像头立体感知等方向,在知名KITTI自动驾驶数据集排行榜上排名前列。团队和MBZUAI戴行老师团队有着深度合作和密切交流,共同推进在自动驾驶领域的科学研究。据悉,戴行老师是丁勇教授的硕士毕业生。