【环球网智能综合报道】迪士尼成立了近百年,档案量之巨难以想象,如果要把迪士尼的特定角色、场景或屏幕上的物体进行搜索将是一个艰巨的任务。日前,迪士尼面向消费者和国际组织(DTCI)的研究员创造了一个机器学习 平台,帮助所有内容进行自动数字化,迪士尼内部称其为内容基因组平台。
内容基因组平台是用来协助用内容元数据填充知识图谱的,类似于在搜索引擎中搜索史蒂夫·乔布斯,然后人工智能应用程序可以利用这些数据来增强搜索,这样就可以帮助动画师从迪士尼档案中找到特定镜头和序列。
举个例子,如果一个动画师想为最新一季的《克隆人战争》创作一个在前几季内容中出现过的特定类型的爆炸效果,那么他可能需要花费数个小时在YouTube上通过观看视频来寻找,因为只看标题是无法知道具体内容的。但是在这一平台的帮助下,动画师将能够简单的搜索必要的元数据。
从头开始建立这一个系统并非易事,迪士尼面向消费者和国际组织(DTCI)研发总监Accardo表示:“开发一种功能强大的分类方法对于搜索至关重要,特别是需要为不同属性生成许多的元数据时,你需要开始思考如何管理术语和标签。如果这些分类法没能奏效,那么生成的数据也将很难以进行任何复杂的利用。”
据报道,该团队首先创建了“第一个自动标记流水线”,标记内容是机器学 习的一个重要组成部分,广泛应用在各种人工智能中,DTCI团队也表示,打标签是从大量结构化数据中识别上下文高度相关的故事和角色信息的有效办法,比如故事情节、角色原型或动机。
这条流水线利用了现有的面部识别软件,然后DTCI团队将其应用到电影和电视节目中,软件能够成功的从屏幕上检测和识别人脸,在取得初步成功后,该团队也能训练系统探测特定的位置。
但是从视频中识别人脸与教会人工智能识别动画中的人脸是截然不同的任务,DTCI的研发经理Miquel Angel Farre说:“汽车人物的脸具有人类特征,但看起来不像人类的脸。因此,我们需要一种能够学 习‘脸’这个抽象概念的东西,而在传统机器学 习中,这是非常复杂的。但多亏了深度学 习,我们才能做到这一点。”
该团队试图将真人面部识别模型应用到动画内容中,但是结果并不让人满意,他们使用的机器学 习方法是HOG+SVM,如果用于挑选颜色、亮度和纹理变化表现就很好,但是用于挑选人脸只能识别与人类比例相似的特征——两只眼睛,一个嘴巴。
然后他们对两个少儿动画片的几百帧画面进行了注释,并试图用这个小样本来训练系统,但是效果依然不理想,最后团队求助于深度学 习方法,但是深度学 习需要大量的数据集标注,研究团队使用已有的样本集进行微调,使其适应特定的内容。
这项技术不仅对于动画制作意义重大,对于消费者来说同样具有革命性,由于该系统可以用于迪士尼工作室的所有内容,理论上消费者可以搜索特定的角色和道具,推荐和发现引擎可以更准确、更高效地找出观众想要的内容类型。
展望未来,DTCI团队希望通过利用多模态技术进一步拓展系统理解广义概念的能力。但是,在此之前还需要更多的研究和开发。Accardo说:“我们必须从可清晰识别内容开始,然后才能进入多模式机器学 习阶段。但是,机器推理、知识图谱、语义理解这些都会极大丰富我们的能力,想想就让人兴奋。”