基于多任务级联卷积神经网络的人脸检测和对齐外文翻译资料

 2022-12-17 14:51:07

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


基于多任务级联卷积神经网络的人脸检测和对齐

摘要:由于人存在不同的姿势、光照条件和环境,这个情况下的人脸检测和对齐存在着巨大挑战性。最近的研究显示,深度学习能够在这两项任务中能够有着令人印象深刻的表现。在本文中,我们提出了一个深度级联的多任务框架,利用人脸检测和人脸对齐之间的内在相关性来提升表现。特别是,我们的网络结构是利用了三层级联的精心设计的深度卷积网络来以粗略到精细的方式标记人脸位置。另外我们建议采取一种新的一种在线采集样本挖掘策略来提升实践中的表现,我们的人脸检测方法与现在人脸检测算法FDDB与WIDER FACE进行对比,具有更高的精度。同时与人脸对齐的AFLW人脸对齐算法比较,同时也能保持实时性能较好。

Ⅰ 引言

人脸检测对于许多人脸应用是非常必要的,例如人脸识别和表情识别。但是大范围的人脸变化,比如姿势变化和剧烈的灯光给人脸检测和对齐带来巨大挑战。

由viola和jones提出的级联人脸检测器,利用haar-like特征和adaboost来训练分类器,实现了良好性能和实时优异表现。但是,有相当多的工作[1,3.4]表明,这种检测器即使拥有着更高级的特征和分类器,它在真实世界应用时效果会明显降低。除了级联结构外,[5,6,7]介绍了可变性模块。

我们知道DPM用于人脸检测可以实现卓越的表现,但是DPM训练阶段耗费大量计算力并且需要大量的标注。最近卷积神经网络在各种计算机视觉任务中取得有些不错进展,例如在图像分类和人脸识别方面。受深度学习方法在计算机视觉方面的成功的灵感,一些研究利用深度卷积网络来进行人脸检测。杨等人,训练深度卷积网络来用于面部特征识别来获得特征的高度响应,从而能够进一步扩大面部边框。然而,由于复杂的CNN结构,这种方法在实践中是特别耗费时间。李等人,用级联的CNN结构进行人脸检测,然是它需要边框校准并且在人脸位置定位和边框回归计算中需要额外的计算力。

面部对齐也引起了广泛的研究兴趣。这个领域的研究可以大致分为两类,基于回归的方法[12,13,16]和模型拟合方法[14,15,17],最近张等人提出使用面部属性识别作为辅助任务来使用深度卷积网络来增强人脸对齐表现。

然而,大多数之前的人脸检测和人脸对齐忽略了这两个人物之间的固有关联性。虽然现在的一些工作在试图解决这些问题,但是仍然存在一些局限性。比如陈等人用像素值差异的随机森林来实施人脸检测和对齐。但是这些手工特征很大程度限制了性能表现。张等人使用了多任务CNN来提高了人脸检测的准确性,但是检测二次调用局限于第一次的弱人脸检测器得出的检测窗口。

另外一方面,在训练中采集困难样本对于增强检测器的强度是非常重要的,然而,传统的困难样本采集通常在离线方式下执行,这明显会增加手动标注的精力。我们期望能够设计一种用于面部检测的在线困难样本挖掘的方法,并且能够自动适应当前的训练状态。

在本文中,我们提出了一个新的框架,通过多任务学习使用统一的级联CNN结构来完成这个任务。我们提出的CNN的结构包含三个部分。

第一部分:我们通过了浅层CNN来快速生成候选窗口

第二部分:我们通过更复杂的CNN来筛选大量的非面部窗口

第三部分:我们使用更强大的CNN来细分结果并输出五个面部标志位置

由于这个多任务学习网络结构,算法的性能可以显著提高。代码在项目1中已经发布。本文的主要贡献课概括如下:

(1)我们提出了一种新的级联CNN结构,用于人脸检测和对齐,我们并精心设计轻量级CNN结构来实现实时性能。

(2)我们提出了一种有效方式来进行在线困难样本采集来提高性能。

(3)在有挑战性的基准测试中,我们进行了大量的实验,与人脸检测和对齐任务中的最先进的技术相比,我们提出的方法有着先进的性能改进。

图1 框架图

如图一,我们的级联框架的流程中,包括三级多任务的深度卷积网络。首先,候选窗口是通过P-NET生成的。之后我们通过R-NET在下一阶段进行更深的优化。在第三阶段。输出网络O-NET,产生最后的边框和面部特征位置。

Ⅱ途径

在本节中,我们将介绍我们的方法来做到人脸检测和对齐。

A 总体框架

我们的方法总体流程如图1所示。在给定一个图像的同时,我们将图片重构到不同的比例来构建图像金字塔,这是以下三级级联框架的输入。

阶段一:我们利用P-NET的完全卷积网络来获得候选面部窗口机器边框回归向量。然后基于估计的边框回归向量去校准那些边框。之后我们采用非极大限制来合并那些边框。

表一我们的与之前的CNN准确性的比较

阶段二:所有候选人都被送到另一个CNN,被称为R-NET,它进一步筛选错误的候选窗口,使用边框回归来筛选,并执行非极大限制。

阶段三:这个阶段类似于第二阶段,在这个阶段,我们的目标是识别更多的面部区域,并且输出五个面部特征位置的点。

在[19]中,已经设计了多各用于面部检测的CNN结构,但是我们注意到它的性能收到以下因素的限制:

卷积层中某些滤波器缺乏辨别多样性特征的能力。

与其他多类异样检测和分类任务相比,人脸检测是一项具有挑战性的二元分类任务,因此每层可能需要的滤波器数量较少。

因此,我们减少了滤波器的数量并将滤波器的尺寸从5x5改为3x3来减少计算,同时增加深度来获得更好的性能。通过这些改进,与之前的框架相比,我们减少了运行时间并且获得更好的性能。训练的结果如表1所示。为了公平比较,我们在每个组中使用相同的训练时间和验证数据。我们的CNN框架如图2所示,我们将PreLU[30]应用为卷积核全连接层(除输出层)之后的非线性激活函数。

训练

我们利用三项损失函数来训练我们的CNN检测器,这三项损失函数分别关于人脸检测、边框回归和人脸特征点位置。

人脸检测:我们将这个学习目标制定为一个二分类问题,对每个样本,我们用交叉熵损失函数:

(1)

其中是通过神经网络输出的预测样本为人脸的概率,为背景的真实标签。

边框回归:对于每个候选窗口,我们使用的损失函数是平方损失函数:

(2)

这个式子是通过欧式距离计算的边框回归损失,其中为神经网络预测到的边框坐标,而为的边框坐标,这两个都是一个边框左上点坐标、右上点坐标、宽和高组成的四元组。

人脸特征点坐标:与边框回归类似,也是采用了一个欧式距离的损失函数:

(3)

其中是神经网络预测人脸特征点的位置,是真实人脸位置的位置,通过计算这两者的欧式距离,来最小化该距离。

最后针对数据库中多个样本的情况,有一个多源训练损失函数:

(4)

MTCNN的整个训练过程都是为了最小化这个函数,过程中使用随机梯度下降来训练网络。

在线困难样本挖掘:与原始分类器训练后进行传统困难样本挖掘不同,我们在面部/非面部分类任务中进行在线困难样本挖掘来适应训练过程。

特别是,在每个小批量中,我们对来自所有样本的前向计算中的损失进行排序,并选择其中的70%作为困难样本。然后我们只计算反向传播中这些困难样本的梯度。这意味着我们忽略了在训练期间不太有利于加强检测器的简单样本。实验表明,该方法不需要手动选择样本即可获得更好的性能。有效性在第Ⅲ节中得到证实。

Ⅲ 实验

在本节中,我们首先评估困难样本挖掘策略的有效性。然后我们将人脸检测器和人脸检测数据集和基准测试FDDB[25],WIDER FACE[24]和Annotated Facial Landmarks in the Wild(AFLW)基准进行比较。FDDB数据集包含一组2845个图像中5171个面的注释。WIDER FACE数据集由3233个图像中的393703个标记的面部边界框组成,其中50%用于测试(根据图像的难度分为三个子集),40%用于训练,剩余的用于验证。AFLW包含24386个人脸的标定,我们使用[22]相同的测试子集。最后我们,评估人脸检测器的计算效率。

A 训练数据

由于我们联合进行人脸检测和对齐,这里我们在训练过程中使用了四种不同的数据注释:

(i)否定:对于任何地面真实面,联合交叉(IoU)比率小于0.3的区域;

(ii)积极因素:IoU高于0.65至真实面孔;

(iii)部分面孔:IoU介于0.4和0.65之间的真实面孔;

(iv)地标面孔:标有5个地标位置的面孔。

部分面部和负面部分之间存在不明确的差距,不同的面部注释之间存在差异。 因此,我们选择0.3到0.4之间的IoU差距。 负面和正面用于面部分类任务,正面和部分面用于边界框回归,地标面用于面部标志定位。 总训练数据由3:1:1:2(负数/正数/部分面/地标面)数据组成。 每个网络的培训数据收集描述如下:

图3 在线和离线困难样本挖掘的P-NET的检测性能

(1)P-NET :我们从WIDE FACE[24]中随机裁剪几个补丁,来收集有效、无效和部分人脸。之后我们将Celeba[23]的人脸裁剪为具有里程碑意义的人脸。

(2)R-NET:我们使用框架的第一阶段来检测WIDER FACE的面部[24],来收集有效的人脸,同时从Celeba检测人脸特征部位[23].

(3)O-NET:和R-NET类似用于收集数据,但我们使用框架的前两个阶段来检测人脸和手机数据。

B 在线困难样本挖掘的有效性

为了评估我们训练两个P-ENT,这两个一个采用在线困难样本挖掘,一个没有采用困难样本挖掘,并且在FDBB上评论它们的表现。实验过后,发现可以日升1.5%的整体性能提升。

C 联合检测和校准的有效性

为了评估联合检测和对齐的作用,我们评估了FDDB(具有相同的P-NET和R-NET)两个不同的O-NET的性能。我们还比较了两个O-NET的边框回归的性能。图3表明联合人脸检测和对齐有助于增强人脸分类和边框回归的任务。

D 面部检测评估

为了评估我们的人脸检测方法的性能,我们将我们的方法与FDBB中的最先进的方法[1,5,6,11,19,26,27,28,29]相比并与WIDER FACE中最先进的方法[1,24,11]相比。图4(a)-(d)表明,我们的方法在两个校准测试中大大优于所有比较方法。

图4 (a)对FDDB的评估 (b-d)对三个较宽人脸集的评估

方法后面的数字表示平均准确度

E 面部对齐评估

在这一部分中,我们将我们的方法的面部对齐性能与以下方法进行比较:RCPR [12],TSPM [7],Luxand face SDK [17],ESR [13],CDM [15],SDM [21], 和TCDCN [22]。 平均误差通过估计的界标与地面实况之间的距离来测量,并相对于眼间距离进行归一化。 图5显示我们的方法优于所有最先进的方法。 它还表明我们的方法在口角定位方面表现出较低的优势。 这可能是由于我们的训练数据中表达的小变化,其在对角位置具有显着的影响。

图5 面部对其的AFLW评估

F 运行效率

鉴于级联结构,我们的方法可以时间人脸检测和对齐的高速度。我们将我们的方法与GPU上最先进的技术进行比较,结果如表Ⅱ所示,我们当前的实现基于未优化的MATLAB代码

表Ⅱ我们的方法与其他方法的速度比较

Ⅳ 结论

在本文中,我们提出了一个多任务级联的CNN基于联合人脸检测和对齐的网络架构。文中的实验结果证明我们的方法移植在几个问题上的表现都要优于最先进的方法,我们提供基准测试(包括FDDB和WIDER FACE人脸检测的基准),以及AFLW基准对齐,同时能够实现640x480的实时性能。三个卓越的贡献主要包括级联CNN结构、在线困难样本挖掘和联合人脸检测和对齐。

参考文献

B. Yang, J. Yan, Z. Lei, and S. Z. Li, “Aggregate channel features for multi-view face detection,” in IEEE International Joint Conference on Biometrics, 2014, pp. 1-8.

P. Viola and M. J. Jones, “Robust real-time face detection. International journal of computer vision,” vol. 57, no. 2, pp. 137-154, 2004

M. T. Pham, Y. Gao, V. D. D. Hoang, and T. J. Cham, “Fast polygonal integration and its application in extending haar-like features to improve object detection,” in IEEE Conference o

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20438],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。