游戏角色定制是最近许多角色扮演游戏的核心功能之一,玩家可以根据自己的喜好编辑游戏中角色的外观。本文研究了一张照片自动生成游戏角色的问题。在最近的研究中,神经网络被引入游戏引擎,而自监督学习被用来预测面部定制参数。然而,在以往的方法中,表情参数和人脸识别参数之间存在着高度耦合,难以对人物的内在面部特征进行建模。另外,以往的基于神经网络的渲染方法也很难推广到多视点渲染的情况。
图1:大多数游戏引擎所做的那样,本文首先将面部参数(id、表情和位置)转换为骨骼驱动的人脸模型。然后将模
本文针对以上问题,提出了一种新的无表情的游戏角色自动生成方法“扑克GAN”。作者首先构建了一个可微字符渲染器,它在多视图渲染中比以前的方法更加灵活。然后利用对抗性训练,有效地将表情参数与身份参数分离,从而生成玩家偏好的中性脸(无表情)角色。由于我们的方法的所有组成部分都是可拆分的,论文的方法可以很容易地在多任务自监督学习范式下训练。实验结果表明,该方法能够生成与输入照片高度相似的生动中性人脸游戏角色。通过对比结果验证了该方法的有效性。
图1:提出了一种基于单张人脸照片的人脸游戏角色自动生成方法。我们的方法可以有效地分离字符的表达和身份
游戏角色是角色扮演游戏的核心。为了提高玩家的沉浸感,面部定制系统得到了显著的发展,并且变得越来越复杂。因此,玩家有时需要花费数小时手动调整数百个参数以创建所需的人脸(例如电影明星)。近年来,游戏角色的自动生成正成为计算机视觉和图形学中一个新兴的研究方向。许多游戏引入了人工智能,可以根据单个或多个2D照片创建3D游戏角色。作为一种典型的多媒体应用,这些人工智能因其具有丰富的趣味性和交互性而受到玩家的青睐。
目前,自动生成三维人脸的方法有两大类,第一类是基于三维变形模型(3DMM)的方法,第二类是人脸到参数转换(F2P)。在过去的二十年里,基于3DMM的方法得到了长足的发展。这组方法通常处理基于参数化线性人脸模型的生成,现在可以从单个或多个输入照片在虚拟现实环境中生成高保真的人脸。
图:在给定相同的人脸参数集的情况下,传统的渲染器只能生成一个前视人脸图像,而论文中提出的渲染器只能生
然而,3DMM及其变体很难应用到游戏环境中。这是因为大多数rpg都需要与玩家进行有效的交互,而3DMM生成的面部参数缺乏物理意义,交互性无法保证。为了解决这类问题,本文提出了一种人脸到参数转换方法(F2P),并且生成的人脸可以很容易地应用到游戏环境中。在他们的方法中,他们引入了一个卷积神经网络对人脸模型进行编码,以便在神经式传输框架下轻松优化面部参数。在此基础上,玩家可以通过手动调整他们的面部参数来操作生成的角色。
图:简单说明字符自动创建任务中的参数耦合问题。尽管(A)和(b)中的字符看起来相似,但它们是由非常不同
然而,在以往的F2P方法中,生成字符的表达式参数和面部身份参数之间高度耦合,使得对字符的内在面部特征建模变得困难。在日常的游戏体验中,玩家更容易接受生成的中性面孔的角色(无表情的角色)。
图:(a) 对齐输入照片,(b)F2P的结果,(c)FR-F2P的结果,(d)我们的结果(仅标识)(e)本论文的结
到目前为止,在人物自动创作中,面部特征和表情的分离仍然是一个挑战。例如,对于眼睛很小的玩家和眼睛稍微闭着的玩家,基于F2P的方法无法有效地将两种情况下的表情参数与输入的照片区分开来。此外,这些方法中基于神经网络的渲染器只针对前视图的绘制而设计,这使得这些方法很难扩展到多视图渲染的情况。
图:不同方法自动生成字符的可视化比较。(a) 对齐输入照片,(b)F2P的结果,(c)FR-F2P的结果,(d)论
本文针对以上问题,提出了一种新的人脸游戏角色自动生成方法。在多任务自监督学习范式下,提出了中性人脸的生成方法。我们的方法可以通过最大化渲染字符和输入人脸照片之间的面部相似度来训练。为了生成无表情字符(“扑克牌脸”字符),作者利用生成性对抗网络(GAN)处理面部身份和表情的分离。因此,我们将我们的方法命名为“扑克脸GAN”。为了有效地度量两个人脸之间的跨域相似度,作者设计了一个多任务损失函数,该函数考虑了人脸内容、身份、姿势和面部标志等多个因素。
图:请注意,每个人脸总共有261个面部特征参数,为了更好地可视化,该图只绘制其151~170个维度(嘴唇部分
论文作者进一步引入了一种基于注意的神经网络“参数转换器”,将上述人脸图像表示转化为三组参数,即表情参数、面部特征参数和姿势参数。这些参数既可以用于在游戏环境中渲染3D角色,也可以由玩家进一步手动微调。考虑到在一张单一输入的照片中,“表情参数”和“面部特征参数”的分离可能有无限多个可能的解决方案,论文作者引入了一个鉴别器来解决这一分离模糊问题。鉴别器被训练来判断输入的面部参数是否来自无表情的面部,换句话说,预测的面部特征参数是否与表情耦合。
图:用论文的方法分离恒等式和表达式的几个例子。请注意,每个人脸总共有261个面部特征参数,为了更好地可
除了对抗性训练外,作者还利用可微渲染技术使游戏引擎的渲染过程可微化,从而使论文中的方法易于进行端到端的训练。不同于以往基于神经渲染器的方法,作者构建了一个基于硬编程的可微渲染器,它更灵活地应用于多视图渲染。论文中的渲染器综合了F2P和3DMM方法中渲染过程的优点,作者首先用大量物理意义上的参数构建3D面部模型,然后基于三角形重心插值法对绘制过程中的梯度进行近似处理,以保证梯度从渲染后的2D图像平滑地反向传播到输入端。基于这个改进,作者的渲染器可以像主流游戏引擎一样轻松地处理表达式基础和3D姿势。相比之下,以前的方法中使用的神经渲染器没有这样的可伸缩性。
图:论文的方法的失败案例:输入(a)眼睛闭着的脸,(b)混合的表情。
本论文的贡献总结如下:
1. 本论文提出了一种新的基于玩家单次输入照片自动生成具有中性面孔(无表情脸)的游戏角色的新方法。将字符自动生成问题转化为人脸参数和表情参数的分离问题。通过对抗训练有效地解决了这一问题,这方面的研究很少。
2. 作者引入了一个基于硬编程的可微字符渲染器,它不仅保留了游戏所需的全部交互,而且可以很容易地集成到论文中方法的训练管道中。论文中的渲染器比以前的可微渲染方法能更好地处理多姿态渲染问题。