基于深度卷积网络的人脸性别分类算法研究与实现外文翻译资料

 2022-11-23 19:14:10

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


目 录

1 绪论 2

2 相关工作 3

2.1年龄和性别分类 3

2.2 深卷积神经网络 4

3 基于卷积神经网络的年龄性别分类 5

3.1网络架构 5

3.2 测试和训练 7

4.实验 7

4.1Adience数据集 7

4.2 结果 8

5.结论 10

参考文献 11

致谢 14

基于卷积神经网络的人脸年龄性别识别

Gil Levi amp;Tal Hassner

以色列开放大学数学与计算机科学系

摘要:随着社交平台和社交媒体的兴起,与年龄和性别自动分类相关的应用程序越来越多。 然而,对真实世界图像现有方法的性能仍然显著欠缺,尤其是相对于最近人脸识别的相关课题报告了这方面性能的巨大飞跃。在本文中,我们表明,通过使用深度卷积神经网络(CNN)表示特征,可以在这些课题上获得显着的性能提升。为此,我们提出了一个简单的卷积网络拓扑结构,即使在学习数据量有限的情况下也可以使用。我们评估了最近针对年龄和性别分类的Adience数据集测试方法,并展示了其显著优于当前最先进的方法。

1 绪论

年龄和性别在社交互动中起着基本的作用。对于人们而言,男性或女性保留着不同的称呼和语法规则,尤其是与年轻人交流相比,在和长辈交谈时常常会使用不同的词汇。虽然这些属性在我们的日常生活中发挥着基本的作用,但自动准确可靠地估计面部图像的能力还远远不能满足商业应用的需求。联想到最近在人脸识别的相关任务中有人声称已超越人类识别能力,这让人十分困惑(例如,[48])。

过去识别脸部图像或分类这些属性的方法依赖于面部特征维度或“定制”脸部描述词的差异(例如,[10,15,32])。大多数人使用专门为估计年龄或性别课题设计的分类方案,其中包括其他方面。这些过去的方法很少被设计来处理大多数无约束成像条件的研究[10]。此外,利用互联网上大量的图像实例和数据来提高分类能力后,这些系统所采用的机器学习方法并没有完全反映出年龄和性别分类的基准。

在本文中,我们试图缩小自动识别人脸能力与年龄和性别估计方法之间的差距。 为此,我们遵循最近人脸识别系统的成功范例:过去几年人脸识别技术研究表明,使用深度卷积神经网络(CNN)可以使其取得更大的进步[31]。我们通过考虑现有可用于准确年龄和性别标签的面部数据相当有限而设计的简单的网络体系结构展示出类似的收益。我们利用新发布的Adience数据集,如图1所示,以针对未过滤脸部图像的年龄和性别分类为基准测试我们的网络[10]。

图1. Adience数据集针对年龄和性别分类[10]。这些图像代表了来自现实世界,不受约束的图像对年龄和性别分类的一些挑战。最值得注意的是,这些挑战包括极度模糊(低分辨率),遮挡,平面外姿势变化,表情等等。

结果表明,尽管Adience集合中的图像具有非常具有挑战性,并且我们的网络设计简单,但是我们的方法以实质性提升优于现有技术。虽然这些结果为基于深度学习的方法提供了基准,但是结果表明未受限制的年龄和性别的问题(如Adience图像所反映的)准确估计仍未解决,它们为更精细的系统设计留下了改进空间。为了提供更有效的未来方法发展的立足点,我们使我们的训练模型和分类系统公开可用。欲了解更多信息,请参阅项目网页:

www.openu.ac. il/home/hassner/projects/cnn_agegender.

2 相关工作

在描述所提出的方法之前,我们简要回顾一下年龄和性别分类的相关方法,并简要介绍深度卷积网络。

2.1年龄和性别分类

年龄分类。 近年来,从面部图像中自动提取与年龄相关的属性的问题已经受到越来越多的重视,大多数方法在第四章。这些方法的详细调查可以在[11]中查看,最近发现的在[21]。 我们注意到,尽管我们将重点放在了年龄段分类上,而不是精确的年龄估计(即年龄回归),但下面的调查包括为任意任务设计的方法。

对于年龄估计早期方法是基于面部特征[29]不同的测量之间计算概率。对面部特征(例如眼睛,鼻子,嘴巴,下巴等)进行局部化处理并且测量它们的尺寸和距离,人工将脸部特征分成不同的年龄段然后计算它们之间的比率并将其用于分类。最近,[41]使用类似的方法来模拟18岁以下受试者的年龄进展。 由于这些方法需要面部精确定位,这本身就是一个具有挑战性的问题,所以它们不适合人们期望在社交平台上找到的野外图像。

在不同的工作路线上,将老化过程表示为一个子空间[16]或[19]复刻。这些方法的缺点是它们需要输入图像接近正面和完全对齐。 因此,这些方法只给出了正面图像的受限数据集的实验结果(如UIUC-IFP-Y [12,19],FG-NET [30]和MORPH [43])。再次,作为一个结果,这样的方法是不适合于无约束的图像。与上述不同的是使用局部特征来表示脸部图像的方法。如[55]高斯混合模型(GMM)[13]被用来表示面部贴片的分布。[54] GMM再次用于表示局部面部测量的分布,但是使用了鲁棒描述符代替像素补丁。最后,代替GMM ,Hidden-MarkovModel,超矢量[40]被用于表示面片分布。局部增强图像强度的替代方案是用鲁棒图像描述符:Gabor图像描述符[32]与模糊LDA分类器一起使用[15],该分类器将人脸图像视为属于多个年龄类别。文献[20]将生物启发特征(BIF)[44]和各种流形学习方法相结合用于年龄估计。Gabor [32]和局部二进制模式(LBP)[1]特征与支持向量(SVM)[9]组成的等级年龄分类器一起使用[7],将输入图像分类为年龄级,并支持向量回归[52]来估计一个精确的年龄。

最后,[4]提出了相关分量分析的改进版本[3]和信息局部保留[36]。这些方法分别用于图像特征的活动模型[8]的远程学习和降维。

所有这些方法已经证明对于年龄估计小范围检测是有效的。 据我们所知,这曾经是检测集体照片的最佳方法。[10]这个检测的最新性能表现是通过使用LBP描述符变化[53]和一个dropout-SVM向量机分类器。我们展示了我们提出的方法在同一课题下对Adience数据库检测结果显示性能超过他们的方法并更具挑战性的。

性别分类。性别分类方法的详细调查可以在[34]和最近的[42]中找到。 在这里我们快速介绍对相关方法的调查。

性别分类的早期方法之一[17]使用一个神经网络训练一小组近正面人脸图像。 [37]利用头部三维结构(使用激光扫描仪获得)和图像强度的组合来进行性别分类。也有学者将SVM分类器[35]直接应用于图像强度。但[2]没有使用SVM,而是将AdaBoost算法用于图像强度并达到了相同的效果。最后,与以往相同的年龄和性别分类方法是由[49]提出。

最近,[51]使用Webers局部纹理描述符[6]进行性别识别,在FERET基准测试中表现出近乎完美的性能[39]。在[38]某次实验中,强度,形状和纹理特征被用于交互信息,在FERET基准测试中又一次获得了近乎完美的结果。

上面讨论的大多数方法都使用FERET数据集来检测[39]开发所提出的系统并评估性能。 FERET数据集图像是在高度控制的条件下拍摄的而非野外的脸部图像,因此挑战性不足。 此外,这个基准测试结果还表明,这个数据集是饱和的,对现代方法来说并不具有挑战性。 因此很难估计这些技术的实际相对收益。所以,[46]利用流行的野生标签化面部数据集(LFW)[25]进行了实验,且主要用于人脸识别。他们的方法是LBP算法与和daBoost分类器的组合应用。

与年龄估计一样,我们也关注包含比LFW提供的图像更具挑战性的图像的Adience集,并使用功能更强大的系统,更好地利用示例训练集中的大量信息。

2.2 深卷积神经网络

卷积神经网络(CNN)的第一个应用可能是[31]描述的用于光学字符识别的LeNet-5网络。相较于现代深度卷积网络,他们的网络是相对简单的,由于有限时间的计算资源和训练大网络算法的挑战。

尽管卷积神经网络体系结构(神经元层次更多的网络)蕴藏着巨大的潜力,但直到最近它们才开始普及是因为计算能力(图形处理单元),和互联网上易获得的训练数据量以及更有效的训练此类复杂模型的方法的开发。最近的值得注意的一个例子是在具有挑战性的Imagenet检测测试中使用深度卷积网络进行图像分类[28]。深度卷积网络还被成功应用于人体姿态检测[50],人脸解析[33],面部关键点检测[47],语音识别[18]和动作分类[27]等。据我们所知,这是他们应用于未受限制的照片中进行年龄和性别分类任务的第一份报告。

3 基于卷积神经网络的年龄性别分类

从社交图像库中收集一个用于年龄和性别估计的大型标记图像训练集,需要访问图像中出现的主题(他们的出生日期和性别)的个人信息,这些信息往往是私人的,或者需要单调乏味且耗时的手动标注。因此,来自现实世界社交图像的年龄和性别检测数据集的大小相对有限,所以目前大小与大得多的图像分类数据集(例如Imagenet数据集[45])不匹配。机器学习时,基于算法并应用这样的小图像集合出现过度拟合是十分常见问题。当考虑用深卷积神经网络时,这个问题由于其庞大的模型参数而加剧。因此必须小心避免在这种情况下过度拟合。

3.1网络架构

我们提出的网络架构在整个实验中都用于年龄和性别分类。如图2所示:

图2.CNN体系结构的插图。该网络包含三个卷积层,每个卷积层都有一个整型线性操作和池化层。前两层也使用局部响应归一化进行归一化[28]处理。第一卷积层包含96个7times;7像素的滤波器,第二卷积层包含256个5times;5像素的滤波器,第三和最终卷积层包含384个3times;3像素的滤波器。最后,添加两个完全连接层,每层包含512个神经元。 更多信息见图3详细的示意图和文本。

图3中额外提供了整个网络设计的更详细的示意图。如下所示:

图3.我们的网络架构的完整原理图.请参阅文本以获取更多详细信息。

这与更大的体系结构相比,该网络仅包含三个卷积层和两个具有少量神经元的完全连接层。例如在[28]和[5]中应用。我们选择小型网络设计的动机既来自于我们希望降低过度拟合风险以及我们试图解决的问题:Adience集的年龄分类要求区分八个类,性别只有两个。这与用于训练所使用的网络所进行人脸识别的一万个身份类别相比不一样。

所有三个颜色通道都由网络直接处理。首先将图像重新缩放到256times;256,并将剪切为227times;227的图片输入网络。这三个随后的卷积层被定义如下:

1. 第一卷积层的输入端加上96个尺寸为3times;7times;7像素的滤波器,接着是激活函数(ReLU),最大汇合层为步长最大值为2个像素的3times;3区域和局部响应归一化层[28]。

2. 上一层的96times;28times;28输出后由第二卷积层处理,其包含256个大小为96times;5times;5像素的滤波器。 再次,ReLU激活函数,之后是具有与之前相同的超参数的最大池化层和局部响应归一化层。

3. 最后,第三个和最后一个卷积层应用一组384个尺寸为256times;3times;3像素的滤波器,然后是ReLU激活函数和在256times;14times;14节点上进行池化操作的最大池化层。

然后通过以下方式定义完全连接层:

4. 第一个完全连接层,包含512个神经元并接收第三个卷积层的输出,后面跟着一个ReLU激活函数和一个dropout层。

5. 接收第一完全连接层的第二完全连接层包含512个神经元并有512个输出节点,接着是ReLU激活函数和一个dropout层。

6. 第三个完全连接层,是映射年龄或性别的最终类。

最后,最后一个完全连接层的输出被送到soft损失函数。预测本身是通过利用损失函数对给定测试图像检测来进行的。

3.2 测试和训练

初始化。所有图层中的权重均使用零均值高斯随机值进行初始化,标准偏差为0.01。 强调一点,我们不使用预先训练的初始化网络的模型。网络从头开始训练,也不使用图像以外的任何数据和供检测可用的标签。再次,这应该与用于人脸识别的数十万个图像的[48]卷积神经网络的训练数据集进行比较。

训练的目标值表示为对应于参考标准的稀疏二元向量。对于每个训练图像,目标标签矢量应在类别数量上(两个用于性别,八个用于年龄分类任务的八个年龄类别),其中参考标准值为1,而在其他地方为0。

网络训练。除了使用拓扑网络体系结构外,我

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[22687],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。