今年6月底,一款可以"一键脱衣"的应用DeepNude受到追捧,用户只需要上传一张照片,即可自动"脱掉"衣服,伪造出逼真的裸照。这款应用上线仅几个小时下载量就突破50万,吸引用户的"一键脱衣"效果正是利用"深度伪造"技术实现。
近几个月来,视频证据成为巴西,中非加蓬和印度重大事件的中心。每个人都有相同的问题:视频真实吗?以加蓬总统为例,他不在国外接受医疗护理,他的政府发布了所谓的生活证明视频。反对者声称它是假的。专家称这种混淆为"骗子的技巧"。
(AI深度伪造视频的出现,让虚假信息得以"零"成本生成和传播,引起各国广泛警示)
这并不是第一个引发争议的AI生成伪造视频案例。早在2017年底引起了公众的注意,一个名为Deepfakes的Reddit帐户发布了使用基于DNN的面部交换算法生成的色情视频,一段有关奥巴马演讲的伪造视频在一个小时内就达到380万次播放。随后,术语Deepfake被更广泛地用于指代所有类型的AI生成的深度伪造模拟视频,特别是换脸。
尤其是GAN算法的突飞猛进,使得Deepfake突破了技术、时间和成本等规模应用障碍,而一些消费者应用程序的普及推广,让AI伪造视频变得随处可见。事实印证,"零"成本的生成和传播,正让AI伪造视频变得泛滥,任何普通用户都可以在短时间内创建"真假难辨"的Deepfake视频和音频,随手发布至微博、抖音、Facebook、Instagram、Twitter、Reddit等社交平台。
尽管诞生之初,Deepfake作为一项有趣的图像处理技术,带来搞笑、娱乐视频。随着技术被恶意使用的风险逐渐显现,更多的问题表现在为国家安全、操纵政治选、经济犯罪、隐私侵犯、威胁信息安全等潜在威胁提供新型技术工具,引起了各国政府的广泛重视。
为此,为防止AI深度伪造内容所造成的隐患,各国政府在推进立法管制、国际安全合作治理的同时,采用主动技术防范及预警检测手段,成为各国政府和大型平台推进AI伪造内容数字治理的基本准则。
数字治理与数字应用被放在同等重要性上。2019年11月29日,网信办发布《网络音视频信息服务管理规定》指出,自2020年1月1日起,AI造假视频不得随意发布。新规定中关于AI造假音视频的规定主要有四条:"按照国家有关规定开展安全评估"、"以显著方式予以标识"非真实音频信息、不得利用AI造假技术发布虚假新闻、部署AI伪造音视频鉴别技术和健全辟谣机制等。
1、"深度伪造"如何检测?
防止AI技术滥用的早期响应者是来自各国头部AI视觉技术公司。包括Facebook、谷歌、微软、影谱科技在内的AI内容创建平台相继宣布视频认证方法及产品,试从源头上遏制"深度伪造(Deepfakes)"的虚假信息,。
近日,微软推出了一款"视频认证工具",检测人眼无法看出来的伪造视频(图片)的混合边界和微妙褪色或灰度元素,认证器在视频播放的每一帧上实时提供这个可信度百分比或伪造分数。微软表示,在美国大选前夕,检测虚假信息至关重要。
Facebook从控制维度宣布,在2020年美国大选前禁止"AI换脸"等深度伪造视频上架,并开始删除"可能误导认知"编辑过或合成的伪造内容。并采用两管齐下的方法来标记和删除AI深度伪造视频。值得注意的是,TikTok和Twitter具有类似的政策。
谷歌用开源方式解决数据集问题,最近,Google表示,任何学术或公司研究人员都可以下载其合成视频集,并使用它们来构建识别AI伪造信息的工具。
影谱科技则提供鉴定和溯源技术双向融合的技术方案,这项技术有两个组成部分,第一个是溯源技术内置在影谱AGC生产引擎工具中,它可以让内容生产商创建AI视频内容时添加数字签名与证书,即标注身份ID,从而达到了从源头进行溯源的目的,对视频篡改及攻击具有较强的鲁棒性。第二个是阅读器工具,可以内置在浏览器扩展中,或集成在移动应用程序中,检查证书并匹配数字认证以确定真实性,如果它识别出被操纵的图像或视频,它就会给用户发布警告信息,向视频中涉及的人员透露他们被"伪造"了。
影谱的技术与应用向结合的方式,该技术将视频换脸模型(Face Swaper)、人脸鉴伪模型(DeepFake Detector)和水印编解码模型(Encoder和Decoder)三种相对独立的技术组合在一起,形成一整套切实可行的换脸视频生成、鉴定和溯源的方案。从根本上解决了,既可以快速发现发布在网上的伪造视频,还可以用来识别互联网上的误导性视频;又可以从源头保证媒体自身信息的真实性和唯一性,对AI深度伪造视频有抑制和识别作用。其次,"即插即用"的产品适用性让其在实际业务应用中快速发挥作用,满足媒体业务所需的快速响应、准确生动标准。
影谱科技是国内知名AI视觉技术服务商,其AI视频生成技术被广泛应用于媒体融合、视频识别、视频生成、数字孪生等数字经济场景中。
2、"深度伪造"到"深度合成",加速和商业落地
技术演进继续会一往无前。随着视频上升成为一种生活方式,AI视频内容生成技术的发展正好迎来了突破临界点。
如果说以"Deepfake(深度伪造)"是"AI内容生成"技术的暗因子,而AI检测技术将有效防范技术滥用带来的污名化,以遏制AI伪造视频泛滥。那么,"AI内容生成"技术所代表的则是先进生产工具,促使"AI视觉内容"呈几何系数增加,切实提升了创建效率、增加数字应用场景、并逐渐演进为一个独立数字产业。
近几年来,"AI内容生成技术"发展早已超出AI换脸的范畴,技术商业领域广泛推荐的"Deep Synthesis(深度合成)"技术则更好地泛指所有AI生成算法和涵盖自动生成的图像、视频、语音、文本、音乐等一切数字内容。
事实上,深度合成Deep Synthesis技术已经具备较高的技术门槛和应用特征。影谱科技深度研究团队负责人表示,通过深度合成技术创建的"AI视频"是一种具备知识产权的数字商品或数字应用。"深度合成"技术与市场普遍认为的AI伪造技术有本质不同。首先是真实性、其次是版权属性、再次从创建之初就有防伪的数字认证ID,可以进行无监督空间映射和多空间混合的优势,而AI识别技术是AI内容创建的底层支撑技术之一。
影谱科技研究人员进一步表示"深度合成Deep Synthesis"的技术原理,是由"自动编码器"人工神经网络和 "生成对抗网络"(GAN)人工神经网络组成,借助可以自主学习的深度学习算法模型来实现。前者用于训练数据的合成,后者由生成器和鉴别器组成,一个用来进行新数据的生成和一个用来对其进行鉴别,经过二者无数次的对抗,最终生成出"基于应用需求"的合成数据。与此相应的,就是图像生成质量的突飞猛进,直接生成全新的高清视频,是一种真实的、根据应用需求的、具备高知识产权价值的数字产业,如虚拟主播、虚拟课堂、数字孪生、AI智能影像等数字场景。
去年,MIT和IBM沃森联合实验室发布的一个基于GAN的AI艺术画师,就可以学习文艺复兴时期的画家的绘画风格,直接将现代人类的照片变成文艺复兴时期的画作。其中的技术优势在于,GAN神经网络会根据自己学到的技巧为画面重新构图,也就是它是画出新的图片,而不是利用风格迁移的方式,改变原图的色彩。
其实,深度合成技术已经可以走得更远。除了单一的图像、音频合成之外,多维度的内容合成已经是一个趋势——可以将语音识别、人脸识别、唇形搜索等结合起来,进行人脸、语音、肢体合成,从而可以让一个人自然流利地说出自己从未说过的话——全身合成、3D合成数字人技术也成为当前的应用热点。刚刚过去的服贸会上,影谱科技推出全球首个3D版AI数字孪生产品,就已经可以在交互情况下实时驱动面部表情和唇形,肢体动作、超写实细节呈现上面做到比拟真人的动态效果。
在"深度合成"技术的商业化方面,已经有众多行业和企业看到其应用场景和广阔市场。目前,影谱科技作为"深度合成"技术商业化推动者,已经在影视娱乐、社交通讯等多个行业的场景中开始发挥作用。
比如,在影视剧制作中,最直接的帮助就是提升音视频制作的效率,拓展创作想象空间;一些特殊情况下,还可以通过合成技术为影视剧的失声的演员进行声音合成,为已过世的演员进行"数字复活";甚至直接创造虚拟数字人来进行影视剧集的制作。
在娱乐应用体验上,最基本的脸部特效应用、换脸视频、动图,都已经多次在我们的生活中出现;虚拟主持人、虚拟主播、虚拟客服也随着深度合成技术的成熟而变得越逼真和可信。
在社交通讯上,与其担心深度合成技术会暴露个人隐私,不如可以让深度合成技术帮我们在社交网络中建立自己的"数字分身",就如同《头号玩家》里面每个人创建的虚拟形象一样,成为自己在网络世界的通行证。
此外,像新零售、教育艺术等领域,深度合成技术带来的仿真数据和虚拟化内容都可以为这些产业带来新的应用场景或者直接推动该领域的技术进步。
显然,深度合成技术的这些正向价值正在为其换来更有底气的话语权和发展前景。但是这个一出现就饱受人类质疑和恐惧的AI技术,仍然值得我们认真对待其应用边界和规则。
3、"深度合成"的治理:是遏制"伪造内容"的砝码
不可否认,在享受深度合成技术带来的生活便利和精神享受,同时必须承受其数字虚拟化的代价。
影谱科技深度研究负责人表示,深度合成技术所带来的"虚假内容"的社会风险将长期存在。首先,深度合成的开源技术和软件,让普通人们伪造、操纵音视频的门槛大幅降低;其次,这些虚假音视频内容足以以假乱真地骗过大多数"不明真相"的群众;最后,这些带有明显色情、危言耸听或侵犯隐私的信息又足以吸引人,只要从源头传出,就会进行源源不断的扩散。
除了少数能够辨别真伪的专业人士,大多数人都难以分辨和抵制这些假信息的诱惑。深度合成的技术滥用风险,需要得到来自法律、技术、行业、民众等多方面的制约。
技术层面。与深度合成技术同步进化的内容鉴别技术和溯源追踪技术也应该得到重视。针对合成内容的有效鉴别与标记,才能从源头来识别合成内容,以防止负面的虚假内容的扩散。行业层面。深度合成技术离不开行业自律,合成内容技术提供者和平台要承诺在合成内容之上必须做出标记,或者提供有效的检测和标注工具,来保证合成内容被清晰识别出来。