点击上方“深度学习爱好者”,选择加"星标"或“置顶”
重磅干货,第一时间送达
摘要
最近的许多作品通过聚合相同身份的形状参数,并基于参数模型(如3D morphable模型(3DMMs))分离不同人群的形状参数,重构出独特的三维人脸形状。然而,尽管这些形状参数在人脸识别任务中具有较高的准确率,但这些参数重构的人脸形状的视觉识别效果并不理想。以下研究问题在以前的工作中没有得到回答:在表示的三维人脸形状中,判别形状参数是否保证视觉判别?分析了形状参数与重构形状几何的关系,提出了一种新的形状参数识别正则化(SIR)损失,旨在提高形状参数域和形状几何域的可分辨性。此外,为了应对同时包含标识和标识标注的训练数据的缺乏,作者提出了一种网络结构和相关的训练策略,以利用既包含标识标签又包含标识标签的混合数据。作者比较了作者的方法与现有的方法在重建误差,视觉区分度和人脸识别的形状参数的准确性。实验结果表明,该方法优于现有的方法。
本文研究了三维参数空间与三维几何空间之间的关系,提出了一种将三维参数空间的判别转移到几何空间的方法。提出了一种新的SIR损失函数用于人脸重建。SIR损失包括两项:识别项(包括类间分离损失和类内聚集损失)和参数分布项。如图1所示,SIR损失明确地对形状参数施加形状一致性,而隐式地引导面部形状,使其具有视觉辨别能力。本文的主要贡献包括:
研究了3DMM参数空间与三维几何空间之间的关系,提出了深度模型应遵循四个原则,以使模型结果在参数域和几何域都有区别。
作者提出了一种利用现有的人脸识别和人脸重建数据集作为训练数据的深度网络,该网络能够将形状参数空间的判别特征转移到几何空间。作者还提出了一个有效的训练范式,使作者的网络稳健地收敛于不完全标记的训练数据。
作者提出了SIR损失,它明确地正则化了3DMM形状参数以满足上述四个条件,同时隐式地引导面部形状具有视觉辨别能力。SIR损失的参数分布项保证了形状几何判别也具有视觉判别性。
框架结构
作者方法的框架
作者的网络包含一个特征提取模块(Encoder module 1),然后是三个编码器(Encoder module 2、3和4),它们共享Encoder module 1的相同权重。置信网络对置信图进行估计,置信图代表了训练过程中模型的任意不确定性。通过切换SIR项和地标项,即使不完全标记的数据也能有效地训练网络。
根据3DMM参数空间与几何空间的关系设计SIR损耗。因此,虽然它只强加形状一致性直接到形状参数,它基本上指导了面几何。这些样本表明,所代表的脸型具有视觉辨别能力。
实验结果
SIR损失项的消融研究
w/o SIR是指作者在培训中不使用SIR术语。w/o先验意味着作者在训练中不使用KL损失。W /o中心意味着作者在训练中不使用加权中心损失。
在特征分离和训练收敛方面与基线模型进行比较
(a)表示在第二阶段训练中,像素损失(11)和人脸识别损失随训练迭代次数的变化。式(9)中使用s,其他损失的权重保持不变。(b)为可视化重建的人脸。
在LFW数据集上,对MGCNet[44]、D3FR[32]、TDDFA[48]和RingNet[6]在不同光照水平、不同面部表情、大姿态和遮挡下的定性结果进行比较。作者只使用形状参数来重建面几何;因此,标准化发生时没有表达式和姿态效应。误差图显示了两个地图形状之间的欧几里德距离。
结论作者的研究从观察开始,虽然使用3DMM形状参数获得了较高的人脸识别精度,但重建的三维人脸形状缺乏显著的视觉辨别能力。作者首先探讨了3DMM参数空间和3D几何空间之间的关系,提出了SIR损失,该损失明确地加强了形状参数空间中的形状一致性,同时隐式地指导重建的人脸形状具有视觉辨别能力。其中,识别损失明确地最大化了形状参数的类间距离,最小化了形状参数的类内欧氏距离,隐式地最大化/最小化了不同人/同一人的形状几何的MSE。Kullback Leibler损耗还被用来明确地约束形状参数,使其遵循特定的分布,并隐式地让它们与用于训练3dmm的形状共享相同的视觉区别。作者建立了一个神经网络和相关的训练策略,以应对缺乏这样一个包含身份和三维几何注释的数据集,在作者的训练策略下可以快速收敛。实验结果表明,作者的结果在重建误差、视觉识别和人脸识别精度方面优于目前最先进的方法。
论文链接:https://arxiv.org/pdf/2104.03515.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。
联系客服