[读论文]弱监督学习的精确 3D 人脸重建：从单个图像到图像集

论文地址：Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From Single Image to Image Set(https://arxiv.org/abs/1903.08527)

1. 摘要

最近，基于深度学习的 3D 人脸重构方法在质量和效率方面都显示出很好的效果。然而，训练深度卷积神经网络通常需要大量数据，而具有真实三维脸部形状的脸部图像却很少。在本文中，作者提出了一种新颖的深度 3D 人脸重建方法。具有以下优势：

为弱监督学习提供了一个鲁棒的混合损失函数，该函数考虑到了监督的低层次和感知层次的信息。
通过利用来自不同图像的互补信息进行形状聚合，执行多图像重建。

作者认为该方法对遮挡和大幅度姿势是快速、准确并且鲁棒的。并且作者在三个数据集提供了全方位的实验，系统地将本文的方法与 15 种最新的方法进行比较，并证明其最先进的性能。

2. 介绍

从无约束的二维图像中真实地恢复人脸的三维形状是一项具有挑战性的任务，并有许多应用，如人脸识别、人脸媒体控制和人脸动画。最近，对使用深度卷积神经网络（CNN）从单一图像中重新构建三维人脸的热度大增，以取代传统方法所使用的复杂和高代价的优化。由于真实的 3D 人脸数据稀缺，许多以前的方法求助于合成数据或使用通过传统方法拟合的 3D 形状作为替代形状标签。但是，它们的准确性可能会受到间隙差异问题或不完善的训练标签。

为了规避这些问题，一些研究人员提出了一些方法，通过无监督或弱监督的方式训练没有人脸形状标签的网络模型，并取得了令人鼓舞的结果。无监督学习的核心是一个可微的图像形成程序，该程序通过网络预测渲染人脸图像，监督信号来自于输入图像和渲染的对应物之间的差异。例如，Tewariet 等人和 Sengupta 等人使用像素级别光度差异作为训练损失。为了提高鲁棒性和表现力，Tewariet 等人提出了两步重建方案，其中第二步使用神经网络产生形状和纹理校正。Genova 等人提出通过使用从人脸识别网络中提取的深层特征之间的距离来测量感知层面的人脸图像差异。

作者在本文中的目标是通过弱监督学习获得准确的三维人脸重构。作者发现使用像素级色彩的低层次信息可能会受到局部最小值问题的影响，在这种情况下，低误差将得到不令人满意的脸部形状结果。另一方面，只使用感知损失也会导致次优的结果，因为它忽略了像素级与原始图像信号的一致性。有鉴于此，作者提出了一个混合的损失函数，该函数整合了这两者，从而获得了准确的结果。作者还提出了一种新的基于皮肤颜色的测光误差注意策略，使方法对遮挡和其他具有挑战性的外观变化（如胡子和浓妆）具有进一步的鲁棒性。作者使用一个现成的深度 CNN 来预测 3D MorphableModel（3DMM）的系数，并在多个数据集上实现了精确的 3D 重构。

有了一个有效的 CNN 模型用于单幅图像的三维人脸重建，作者进一步考虑基于 CNN 的人脸重建与图像集的聚合问题。给出一个对象在不同的情况下日常捕捉到的的多张脸部图像（例如，来自个人相册集），利用多张图像来构建更好的 3D 面部形状是显而易见的。为了在任意数量的图像上应用深度神经网络，一种解决方案是将单幅图像的重建结果聚合起来，最简单的策略是对重建的形状进行简单地平均化。然而，这种原生策略没有考虑输入图像的质量（例如，如果某些样本包含严重的遮挡）。它也没有充分利用姿态差异来改进形状预测。

在本文中，作者提出一种从多个图像中学习三维人脸聚合并以无监督的方式进行重建的方法。作者使用一个简单的辅助网络来产生回归的三维模型系数的 '置信度分数'，并通过基于置信度的聚合获得最终的身份系数。尽管没有使用明确的置信度标签，但作者的方法会自动学习高质量（尤其是高可见）的照片。此外，它可以利用差异来更好地融合互补的信息，学习到更准确的三维形状。

总而言之：

作者提出了一种基于 CNN 的单图像人脸重建方法，利用混合的图像信息进行弱监督学习。并证明了将它们结合起来的优势，并在多个数据集上显示了该方法的最佳准确性，大大超过了以前以完全监督方式训练的方法。此外，作者还表明，在低维的 3DMM 子空间，作者仍然能够以可观的幅度优于现有采用 '无约束 ' 3D 表示技术。
作者提出了一种新的形状置信度学习方法，用于多图像人脸重建聚合。置信度预测子网也是以一种无真实标签的无监督方式训练的。作者的实验表明，该方法明显优于简单的聚合（例如，形状平均）和一些启发式策略。作者表示这是首次尝试基于 CNN 的三维人脸重建和从无约束的图像集中进行聚合的方法。

3. 模型和输出

图1. (a) 方法框架：包括一个用于端到端单图像三维重建的重建网络和一个用于基于多图像重建的置信度测量子网。(b) 使用作者提出的混合级损失函数的单图像训练管道。且方法不需要任何地面真实的三维形状来训练。它只利用一些弱的监督信号，如面部标志、皮肤面具和预先训练好的人脸识别 CNN 。(c) 基于多图像的重建的训练管道。置信子网络学习测量重建的置信度，以便在没有任何明确标签的情况下进行聚合。虚线箭头表示网络训练的误差反向传播。

如图1（a）所示，作者使用一个 CNN 来回归 3DMM 人脸模型的系数。对于无监督/弱监督的训练[49, 48]，作者也对照度和脸部姿势进行回归，以实现分析性的图像再生。模型和 CNN 输出详细说明如下：

3D Face Model：在3DMM中，脸部形状和纹理可以由一个仿生模型表示[公式1]:
其中和是平均的脸部形状和纹理； 和分别是身份、表情和纹理的PCA 基数，它们都以标准的去维度进行缩放； 和是用于生成三维脸部的相应系数向量。作者采用 Basel2009 人脸模型来表示和，并使用从 Face-Warehouse 建立的表情基数。并且作者选择了一个基数的子集，结果是和。作者排除了耳朵和颈部区域，最终模型包含 36K 个顶点。
照明模型（Illumination Model）：作者假设人脸为朗伯斯表面（ Lambertian surface），用球面谐波（Spherical Harmonics）近似场景光照。然后计算具有表面法线和皮肤纹理的顶点的辐射度为：，其中是球面谐波 SH 的基函数，是相应球面谐波 SH 联合系数。作者选择B=3波段，并假设单色光，使。
相机模型：作者使用具有经验选择的焦距的透视相机模型用于 3D-2D 投影几何。3D 人脸姿势由旋转和平移表示。总之，要预测的未知数可以由向量表示。在本文中，作者使用 ResNet-50 网络，通过将最后一个全连接层修改为 239 个神经元，来回归这些系数。为了简洁起见，作者把这个用于单幅图像重建的修改后的 ResNet-50 网络称为 R-Net 。作者将在下一节中介绍如何训练它。

4. 用于单幅图像重建的混合弱监督学习（Hybrid-level Weak-supervision for Single-Image Reconstruction）

给定一个训练 RGB 图像，作者使用 R-Net 回归系数向量，利用它可以通过一些简单的、可微的数学推导分析生成重建的图像

其中，表示像素索引，是可以方便得到的重投影脸部区域，表示范数， 是基于皮肤颜色的训练图像的注意力掩膜（attention mask），描述如下：

Skin Attention：为了获得对遮挡和其他具有挑战性的外观变化（如胡须和浓妆）的鲁棒性，作者计算了每个像素的皮肤颜色概率。在皮肤图像数据集上用高斯混合模型训练一个朴素贝叶斯分类器。对于每个像素，作者设。作者在实验中发现这样一个简单的皮肤感知损失函数在实践中效果非常好，而并不需要人脸分割方法。图 2 说明了使用作者的皮肤注意力掩膜的好处。还值得一提的是在方程中的损失：其为 2D 图像像素上整合，而不是 3D 形状顶点。

4.1.2 标记点损失（ Landmark Loss）

作者还使用二维图像上的人脸标记点作为弱监督来训练网络。作者使用目前最准确的三维人脸对齐方法来检测训练图像的 68 个标记点。在训练中，作者将重建的形状的三维标记顶点投射到图像上，得到，并计算出损失为[公式3]:

来评估。

这样一来，误差可以反向传播到，然后进一步传播到 C-Net 的权重，因为公式 7 是可微调的。C-Net 将被训练成能够产生尽可能与人脸图集一致的聚合三维人脸形状的置信度。图 1(c) 说明了该管道。在多图像训练阶段，损失权重和分别被设置为和。

作者的聚合设计和训练方案基于集合的人脸识别工作的启发。然而使用标量质量分数进行特征向量聚合，而作者为 3DMM 系数生成元素分数。在第 6.2.1 节中，作者展示了按元素得分产生了更好的结果，并分析了作者的网络如何利用人脸姿势差异来实现更好的形状聚合。

5.2 Confidence-Net Structure

作者的 C-Net 设计为轻量级模型。由于 R-Net 能够预测姿势和光照等高层次信息，因此很自然地将其特征图重用于 C-Net。在实践中，作者从 R-Net 中获取浅层和深层特征，如图 1（a）所示。浅层特征可以用来衡量图像的遮挡，例如遮挡。

具体来说，作者取 R-Net 第一个残差块和全局池化后的特征输出作为 C-Net 的输入。作者应用三个卷积层，个通道和步长，然后在上使用全局池化层以获得和，并分别应用两个具有 512 和 80 个神经元的全连接层。最后，应用 sigmoid 函数使置信度预测为正。作者的 C-Net 总共有 3M 个参数，大约是 R-Net 的大小

6. 结论

作者提出了一种基于 CNN 的单图像人脸重建方法，该方法利用混合级图像信息进行弱监督学习，无需真实 3D 形状。综合实验表明，作者的方法在准确性和鲁棒性方面都大大优于以前的方法。作者还提出了一种使用 CNN 的新型多图像人脸重建聚合方法。在没有任何显式标签的情况下，作者的方法可以学习测量图像质量并利用不同图像中的互补信息来更准确地重建 3D 人脸

知识扩展：3DMM 介绍

3DMM 模型的关键在于一个平均的脸部模型和形变模型与照片的标记点匹配问题。3DMM 将人脸分为形状向量 S（Shape-Vector）和纹理向量 T （Texture-Vector）。形状向量 S 包含了坐标信息：

其中，指的是模型的顶点数。同理，纹理向量包含了颜色信息:

通过以上的表示方法，构造由个人脸模型组成的三维形变脸部模型，其中每一个都包含相应的和两种向量，这样在输入一个新的人脸图像后，可以用以下方式表示新的 3D 人脸模型：

其中

。

由此可见，一个新的 3D 人脸模型可由数据库中已有的脸部模型的线性组合来表示，新的 3D 人脸模型可表示为：

其中。在模型参数化后，通过修改和就可构造新的 3D 人脸模型。为了从数据库中张人脸模型中提取出一个平均的脸部特征，3DMM 采用主成分分析法（PCA）提取出一个平均脸部模型。PCA 算法流程主要分为以下几步：

计算 ;
中心化人脸数据，求得 ;
分别计算协方差矩阵 ;
求得相应协方差矩阵的特征值和特征向量；

通过 PCA 算法后，新的脸部可以表示为：

以上表示协方差的特征值和特征向量，表示协方差的的特征值和特征向量。这个时候，系数和的概率分别表示为：

其中分别为协方差矩阵的特征值，而 m - 1表示从个样本中提取不相交子空间的特征向量的数量为 m-1，例如论文采用的开源版本 BaselFaceModel2009（BFM09），共采集了200个人脸样本数据，得到的特征向量数量为199个。对于采用PCA 分析目的是为了得到个互不相交的子空间，这样在进行修改时，可以达到只修改一部分子空间即一部分的脸部特征，而避免了对其他子空间进行影响。以上介绍了三维形变模型3DMM基本数学推导过程，在实际使用的时候还需对面部表情以及相关的脸部特征进行特殊处理。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。