DeepFace: 在人脸识别领域缩小与人类水平的差距外文翻译资料

 2022-08-12 16:40:06

DeepFace: Closing the Gap to Human-Level Performance in Face Verification

Yaniv Taigman Ming Yang Marcrsquo;Aurelio Ranzato Lior Wolf

Facebook AI Research Tel Aviv University

Menlo Park, CA, USA Tel Aviv, Israel

{yaniv, mingyang, ranzato}@fb.com wolf@cs.tau.ac.il

Abstract

In modern face recognition, the conventional pipeline consists of four stages: detect rArr; align rArr; represent rArr; classify. We revisit both the alignment step and the representation step by employing explicit 3D face modeling in order to apply a piecewise affine transformation, and derive a face representation from a nine-layer deep neural network. This deep network involves more than 120 million parameters using several locally connected layers without weight sharing, rather than the standard convolutional layers. Thus we trained it on the largest facial dataset to-date, an identity labeled dataset of four million facial images belonging to more than 4,000 identities. The learned representations coupling the accurate model-based alignment with the large facial database generalize remarkably well to faces in unconstrained environments, even with a simple classifier. Our method reaches an accuracy of 97.35% on the Labeled Faces in the Wild (LFW) dataset, reducing the error of the current state of the art by more than 27%, closely approaching human-level performance.

Introduction

Face recognition in unconstrained images is at the forefront of the algorithmic perception revolution. The social and cultural implications of face recognition technologies are far reaching, yet the current performance gap in this domain between machines and the human visual system serves as a buffer from having to deal with these implications.

We present a system (DeepFace) that has closed the majority of the remaining gap in the most popular benchmark in unconstrained face recognition, and is now at the brink of human level accuracy. It is trained on a large dataset of faces acquired from a population vastly different than the one used to construct the evaluation benchmarks, and it is able to outperform existing systems with only very minimal adaptation. Moreover, the system produces an extremely compact face representation, in sheer contrast to the shift

1

toward tens of thousands of appearance features in other recent systems [5, 7, 2].

The proposed system differs from the majority of contributions in the field in that it uses the deep learning (DL) framework [3, 21] in lieu of well engineered features. DL is especially suitable for dealing with large training sets, with many recent successes in diverse domains such as vision, speech and language modeling. Specifically with faces, the success of the learned net in capturing facial appearance in a robust manner is highly dependent on a very rapid 3D alignment step. The network architecture is based on the assumption that once the alignment is completed, the location of each facial region is fixed at the pixel level. It is therefore possible to learn from the raw pixel RGB values, without any need to apply several layers of convolutions as is done in many other networks [19, 21].

In summary, we make the following contributions : (i) The development of an effective deep neural net (DNN) architecture and learning method that leverage a very large labeled dataset of faces in order to obtain a face representation that generalizes well to other datasets; (ii) An effective facial alignment system based on explicit 3D modeling of faces; and (iii) Advance the state of the art significantly in (1) the Labeled Faces in the Wild benchmark (LFW) [18], reaching near human-performance; and (2) the YouTube Faces dataset (YTF) [30], decreasing the error rate there by more than 50%.

Related Work

Big data and deep learning In recent years, a large number of photos have been crawled by search engines, and uploaded to social networks, which include a variety of unconstrained material, such as objects, faces and scenes.

This large volume of data and the increase in computational resources have enabled the use of more powerful statistical models. These models have drastically improved the robustness of vision systems to several important variations, such as non-rigid deformations, clutter, occlusion and illumination, all problems that are at the core of many computer vision applications. While conventional machine learning methods such as Support Vector Machines, Principal Component Analysis and Linear Discriminant Analysis, have limited capacity to leverage large volumes of data, deep neural networks have shown better scaling properties.

Recently, there has been a surge of interest in neural networks [19, 21]. In particular, deep and large networks have exhibited impressive results once: (1) they have been applied to large amounts of training data and (2) scalable computation resources such as thousands of CPU cores [11] and/or GPUrsquo;s [19] have become available. Most notably, Krizhevsky et al. [19] showed that very large and deep convolutional networks [21] trained by standard backpropagation [25] can achieve excellent recognition accuracy when trained on a large dataset.

Face recognition state of the art Face recognition error rates have decreased over the last twenty years by three orders of magnitude [12] when recognizing frontal faces in still images taken in consistently controlled (constrained) environments. Many vendors deploy sophisticated systems for the application of border-control and smart biometric identification. However, these systems have shown to be sensitive to various factors, such as lighting, expression, occlusion and aging, that substantially deteriorate their performance in recognizing people in such unconstrained settings.

Most current face verification methods use hand-crafted features. Moreover, these fea

剩余内容已隐藏,支付完成后下载完整资料


摘要

在现代人脸识别中,常规的流水线由四个阶段组成:检测、对齐(矫正)、代表、分类。为了应用分段仿射变换,我们通过使用显式的三维人脸建模,重新讨论了对齐步骤和表示步骤,并从9层深度神经网络中获得了人脸表示。这个深度网络使用了超过1.2亿个参数,使用的是几个没有权值共享的局部连接层,而不是标准的卷积层。因此,我们将它训练在迄今为止最大的面部数据集上,这是一个包含400万张面部图像的标识数据集,属于4000多个身份。将基于模型的精确对准与大型面部数据库相结合的学习表示方法可以很好地泛化到无约束环境下的人脸,即使使用简单的分类器也是如此。在野外(LFW)数据集中标记的人脸中我们的方法达到了97.35%的精度,将当前技术水平的误差降低了27%以上,接近人类的水平。

1.介绍

无约束图像中的人脸识别处于算法感知革命的前沿。人脸识别技术的社会和文化影响是深远的,但目前在这一领域,机器和人类视觉系统之间的性能差距可以作为缓冲来处理这些影响。

我们提出的系统(DeepFace)已经填补了最流行的基准在无约束人脸识别的大部分差距,现在处于人类水平的准确性的边缘。它在一个大的人脸数据集上进行训练,这些人脸数据集与用来构建评估基准的人脸数据集有很大的不同,而且它能够在适应性非常小的情况下超越现有的系统。此外,该系统产生了一种极为紧凑的面部表现,与这种变化形成了鲜明的对比在其他最近的系统中有成千上万的外观特征[5,7,2]。

该系统不同于该领域的大多数贡献,因为它使用深度学习(DL)框架[3,21]来代替精心设计的特性。DL特别适合处理大型训练集,最近在不同领域取得了许多成功,比如视觉、语音和语言建模。具体到人脸,学习网络能否成功地以稳健的方式捕获人脸外观,很大程度上取决于非常快速的三维比对步骤。该网络结构基于这样的假设:一旦对齐完成,每个面部区域的位置就固定在像素级别。因此可以从原始像素RGB值中学习,而不需要像在许多其他网络中那样应用多层卷积[19,21]。

综上所述,我们做出了以下贡献:(i)开发了一种有效的深度神经网络(DNN)架构和学习方法,该架构和学习方法利用一个非常大的标记人脸数据集,以获得一个可以很好地推广到其他数据集的人脸表示; (ⅱ)基于人脸显式三维建模的有效人脸定位系统; (iii)显著提高了(1)野生基准(LFW)[18]中的人脸标记,接近人类绩效;(2) YouTube人脸数据集(YTF)[30],错误率降低50%以上。

1.1相关工作

大数据与深度学习近年来,大量的照片被搜索引擎抓取,并上传到社交网络,其中包括各种不受约束的材料,如物体、面孔和场景。

如此庞大的数据量和计算资源的增加使得使用更强大的统计模型成为可能。这些模型极大地提高了视觉系统对一些重要变化的鲁棒性,如非刚性变形、杂波、遮挡和照明,这些都是许多计算机视觉应用的核心问题。传统的机器学习方法,如支持向量机、主成分分析和线性判别分析,在处理大量数据时能力有限,而深度神经网络显示出更好的可伸缩性。

最近,人们对神经网络的兴趣激增[19,21]。特别是,深度和大型网络曾经展现出令人印象深刻的结果:(1)它们已经被应用于大量的训练数据和(2)可扩展的计算资源,如数以千计的CPU核心[11]和/或GPU的[19]已经成为可用的。最著名的是Krizhevsky等人。[19]表明,经过标准反向传播[25]训练的非常大且深的卷积网络[21],在大数据集上训练可以获得非常好的识别精度。

在过去的二十年中,当在一致控制(约束)的环境中拍摄的静止图像中识别正面人脸时,人脸识别的错误率降低了三个数量级[12]。许多供应商部署了复杂的系统来应用边界控制和智能生物识别技术。然而,这些系统已经显示出对各种因素的敏感性,如光照、表情、遮挡和老化,这些因素大大恶化了它们在这种不受约束的环境中识别人的能力。

目前大多数人脸验证方法都使用手工制作的功能。而且,即使在最早的LFW贡献中,这些特性也常常组合在一起以提高性能。目前在性能图表中处于领先地位的系统使用了成千上万的图像描述符[5,7,2]。相反,我们的方法直接应用于RGB像素值,产生一个非常紧凑但稀疏的描述符。

深度神经网络也曾被应用于人脸检测[24]、人脸比对[27]和人脸验证[8,16]。在无约束领域,Huang等人。[16]作为输入的LBP特征,与传统方法相结合,表现出一定的改善。在我们的方法中,我们使用原始图像作为基本的表示,并且为了强调我们工作的贡献,我们避免将我们的特征与经过设计的描述符结合起来。我们还提供了一个新的架构, 通过合并3d对齐,进一步推动了这些网络可实现的极限,定制架构一致输入, 将网络扩展几乎两个数量级和展示了一种简单的知识转移方法,只要在非常大的标记数据集上训练了网络。

度量学习方法在人脸验证中被大量使用,常常与特定任务的目标相结合[26,29,6]。目前,最成功的系统是使用大量标记人脸[5]的数据集,该系统采用了一种巧妙的迁移学习技术,将在2995个不同受项目的99773张图像上学习的联合贝叶斯模型[6]应用到LFW图像域。在这里,为了证明这些特性的有效性,我们将远程学习步骤简化。

(a) (b) (c) (d)

(e) (f) (g) (h)

图1所示。对齐管道。(a)检测到的人脸,有6个初始基准点。(b)诱导的2d定向作物。(c)将2d对齐的作物上的67个基准点及其相应的Delaunay三角剖分,我们在轮廓上添加三角形以避免不连续。(d)转换为2d对齐的裁剪图像平面的参考3D形状。(e)三角能见度, 安装在3D-2D相机上;较深的三角形较不明显。(f)由3D模型诱导的67个基点,用于指导分段仿射翘曲。(g)最后的正面作物。(h) 3D模型生成的新视图(本文未使用)。

2.面部对齐

现有的几个face数据库的对齐版本(例如LFW-a[29])通过提供一个标准化的输入[26]来帮助改进识别算法。然而,在无约束的情况下对齐人脸仍然被认为是一个困难的问题,需要考虑许多因素,如姿态(由于人脸的非平面性)和非刚性表情,这些因素很难从具有身份特征的面部形态中分离出来。最近的方法通过使用复杂的对齐技术成功地弥补了这些困难。这些方法可以使用以下一种或多种方法:(1)使用面部的解析三维模型[28,32,14],(2)从外部数据集搜索相似的基准点配置来从[4]推断,(3)非监督方法为像素找到相似变换[17,15]。

虽然对齐被广泛使用,但在无约束人脸验证的背景下,目前还没有完整的物理上正确的解决方案。近年来,三维模型已经失宠,尤其是在无约束环境下。然而,由于人脸是三维物体,如果处理正确,我们相信这是正确的方法。在本文中,我们描述了一个系统,包括基于基准点的面部解析三维建模,用于将检测到的面部修剪变形为3D正面模式。

与许多最近的对准文献相似,我们的对准是基于使用基准点探测器来指导对准过程。我们使用一个相对简单的基准点检测器,但是在多次迭代中应用它来改善输出。在每次迭代中,通过一个训练有素的支持向量回归器(SVR)来从图像描述符中预测点配置来提取基准点。我们的图像描述符是基于LBP直方图[1],但也可以考虑其他特征。利用诱导相似矩阵T将图像转换为新的图像,我们可以在新的特征空间上再次运行基准检测器,并且改善定位。

2D对齐 我们通过检测检测作物内部的6个基准点(以眼睛的中心,鼻尖和嘴巴的位置为中心)来开始对齐过程,如Fig.1(a)所示。 它们被用来通过 对j = 1..6 等点的拟合的位置来近似地缩放、旋转和将图像转换为六个锚点位置。 并对新的变形图像进行迭代,直到没有实质性的变化,最后构成最终的二维相似变换:. 此聚合转换生成2D对齐的裁剪,如Fig.1(b)所示。。这种对准方法与LFW-a中使用的方法相似,经常被用于提高识别精度。然而,相似变换不能补偿平面外旋转,这在无约束条件下尤为重要。

3D对齐 为了对齐出平面旋转的脸部,我们使用了一个通用的3D形状模型,并注册了一个3D仿射相机,用于将2D对齐的裁切扭曲到3D形状的像平面。这将生成如Fig.1(g)所示的3d对齐的裁剪版本。这是通过使用第二个SVR在2D对齐裁剪中定位额外的67个基准点来实现的。作为一个三维通用形状模型,我们简单地从USF Human-ID数据库中提取三维扫描的平均值,并将其后处理为对齐的顶点 。我们手动放置了在三维形状上的67个锚点,通过这种方式实现在67个检测到的基准点及其3D参考之间完全对应。然后使用广义最小二乘法将仿射3D到2D相机安装到线性系统中 有着已知的协方差矩阵Sigma;,最小化一下的损失函数,其中是残差向量,

是一个 的矩阵,其由堆叠(2times;8)矩阵 组成,其中表示一个由四个0组成的行向量,对应着每个参考基准点。 规格的仿射相机由八个未知向量表示。损失函数能够使用sum;的Cholesky分解来最小化,这将问题转化为普通的最小二乘。

因此,例如,在人脸轮廓上的检测点往往更有噪声,因为它们的估计位置很大程度上被相对于摄像机角度的深度所影响,我们根据由基准点误差的协方差使用一个(67lowast;2)times;(67lowast;2)协方差矩阵Sigma;。

正面化 由于没有对全透视投影和非刚性变形建模,拟合后的相机P只是一个近似值。为了减少这种重要的身份承重因素对最终翘曲的破坏,我们将每个参考基准点的x-y分量加上r中相应的残差,我们表示为 。为了使2D图像变形且具有较小的失真,这种松弛是合理的。如果没有它,人脸在3D中会被扭曲成同样的形状,失去重要的鉴别因素。最后,正面化是通过从67个基准点派生的Delaunay三角剖分法将分段仿射变换从(源)转换为(目标)。同样,看不见的三角形w.r.t到相机P, 可以使用图像混合及其对称部分进行替换。

3.表示

图2. DeepFace体系结构概述。 对整流输入进行单个卷积-池-卷积滤波的前端,然后是三个本地连接层和两个全连接层。 颜色表示在每个图层上生成的特征图。 网络包含超过1.2亿个参数,其中95%以上来自本地和全连接层

近年来,计算机视觉文献在描述符工程领域引起了广泛的关注。这种描述符在应用于人脸识别时,通常对面部图像中的所有位置使用相同的操作符。最近,随着越来越多的数据可用,基于学习的方法已经开始超越工程特性,因为它们可以发现和优化特定任务[19]的特性。在这里,我们通过一个大的深层网络学习面部图像的一般表示。

深度神经网络结构与训练 我们在一个多酚类面部识别任务中训练我们的DNN,即对面部图像的身份进行分类。整体的结构如图所示。将大小为152times;152像素的3d对齐的3通道(RGB)人脸图像提供给具有32个大小为11x11x3的过滤器的卷积层(C1)(我们用32x11x11x3@152x152表示)。生成的32个特征图然后被输入到一个最大池化层(M2),该对于每个通道,分别以2的步幅在3x3空间邻域上取最大值。接下来是另一个卷积层(C3),它有16个大小为9x9x16的过滤器。这三层的目的是提取低级的特征,比如简单的边缘和纹理。最大池化层使得卷积网络的输出对本地转换更健壮。但是,多个级别的池化层将导致网络丢失有关详细面部结构和微小纹理的的精确位置的信息。因此我们仅在第一个卷积层后使用最大池化层。我们将这些第一层解释为前端自适应预处理阶段。虽然他们负责绝大部分的计算,却有着非常少的参数。这些层仅将输入扩展为一组简单的局部特征。

随后的层(L4、L5和L6)是局部连接的[13、16],就像卷积层一样,它们应用了一个过滤组,但是特征图中的每个位置都学习了一组不同的过滤器。由于对齐图像的不同区域具有不同的局部统计量,因此卷积的空间平稳性假设不能成立。例如,眼睛和眉毛之间的区域表现出非常不同的外观,并且比鼻子和嘴之间的区域有更高的辨别能力。换句话说,我们利用输入图像对齐的事实来定制DNN的体系结构。局部层的使用不影响特征提取的计算量,但确实会影响要接受训练的参数数量。仅仅因为我们有一个大的标记数据集,我们就可以提供三个大的局部连接层。使用局部连接层(不共享权值)也可以通过以下事实来证明:局部连接层的每个输出单元都被输入的很大部分影响。例如,L6的输出受到一个输入端74x74x3的色块的影响,这样的大块色块之间几乎没有统计共享。

最后,顶部两层(F7和F8)是完全连接

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236615],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。