基于图像的多深度网络学习的静态人脸表情识别外文翻译资料

 2022-07-25 21:50:19

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于图像的多深度网络学习的静态人脸表情识别

摘 要:我们报告了我们在2015年情感识别野外挑战赛(EmotiW)中所用的基于图像的静态人脸表情识别方法。我们为了一个寻求自动将一组静态图像分类为7种基本情绪的方法的挑战而专注于SFEW 2.0数据集。该方法包括一个基于三个最先进的脸部检测器的组合的脸部检测模块,以及一个由多深度卷积神经网络(CNN)组合而成的分类模块。每个卷积神经网络模型是随机初始化的,并且在一个由2013年人脸表情识别(FER)挑战赛提供的更大的数据集进行预先训练。这些预先训练的模型然后针对SFEW 2.0数据集的训练进行了微调。为了结合多个卷积神经网络模型,我们提出了学习网络响应的权重组合的两种方案:通过减少对数似然的损失,和通过最小化关键部分的损耗。我们提出的方法会在人脸表情识别(FER)数据集的基础上产生最先进的结果。该结果分别达到SFEW 2.0的验证和测试数据集的55.96%和61.29%,显著超过了挑战要求底线35.96%和39.13%。

分类和主题描述:I.5.4 [模式识别]:应用——计算机视觉,信号处理;I.4.m [图像处理和计算机视觉]:杂项

关键词:人脸表情识别;卷积神经网络;多个网络学习;2015年EmotiW挑战

1.引言

自动感知和识别人类的情感一直是人机交互的关键问题之一。其相关研究从根本上说是一种涉及到非常广泛的相关领域,包括计算机视觉,语音分析,语言学,认知心理学,机器人技术和学习理论等多学科的项目。拥有更强大的情感识别智能的计算机将能够更好地了解人类并且能与人类交互得更自然。许多现实世界的应用,如商业呼叫中心和影响感知游戏的开发也会受益于这样的智能。

情感识别输入的可能来源包括不同类型的信号,例如视觉信号(图像/视频),音频,文本和生物信号。对于基于视觉的情感识别,一些视觉线索,如人的姿势,动作和场景上下文能提供有用的信息。尽管如此,人脸表情仍然可以说是分析基础的人类情感中最重要的视觉线索。尽管在连续不断的努力研究下,未控制的环境下的精确的人脸表情识别仍然是一个显著的挑战。许多早期的人脸识别数据集是在受试者被要求人为做出特定的表情的“实验室控制的”环境中收集的。这种故意的行为经常导致不同的视觉表现,音频廓以及计时,并且因为不能被称之为自然的人脸表情。另一方面,由于视觉变化以及有时甚至是问题的性质不明确,在自然环境下识别人脸表情可以被认为是更加困难的。其他的不利因素也许包括照明差,分辨率低,模糊,闭塞,以及文化/年龄差异等。

最近在情感识别方面的新进展聚焦于识别更自然的人脸表情。在自然环境下的活动人脸表情(AFEW)数据集和在自然环境下的静态人脸表情(SFEW)数据集是被收集用来模仿更自然的情景,并包含7种基本情感类别。AFEW数据集的视频剪辑是从电影中提取的,而SFEW数据集是AFEW数据集的静态子集。这里的思想是,电影里的人脸表情虽然不是真正自然的,至少以比在实验室控制的数据集更自然的和多用途的方式来提供人脸表情。今年的2015情感识别野外挑战大赛(EmotiW)包含两个分别基于AFEW 5.0和SFEW 2.0的挑战。由于更自然的特征,这两个数据集比许多传统的数据集更加困难。虽然一些手工编制的特征,如三个正交平面上的局部二元模式(LBP-TOP),面向梯度的金字塔直方图(PHOG)和本地量化模式(LPQ)已经证实在传统的数据集运行良好,然而他们在这两个数据集下表现得非常不好。

深度卷积神经网络最近在各种图像分类任务中取得了优异的性能。从局部到全局特征的卷积学习的精心设计,集中和分层的体系结构呈现出很强的视觉表现能力,使之成为表情识别的强大工具。在本文中,我们把注意力牢牢关注在使用深度卷积神经网络在SFEW数据集上进行基于图像的静态人脸表情识别。我们的主要贡献可以概括如下:1.我们提出了一个卷积神经网络的体系结构,实现了卓越的情感识别性能。2.我们提出了一个数据扰动和投票的方法,进一步大幅度地增加卷积神经网络的识别性能。 3.我们提出了两种新的约束优化框架,通过最小化网络中集合输出响应的损耗来自动学习网络集成权重。我们用上述方法实现的最好的提交结果达到了在SFEW测试集下的61.29%的精确度,以21.6%的显著提升超过了39.13%的基准线。这个框架还实现了在FER数据集下的最先进的性能表现。

2.相关工作

在过去两年的EmotiW挑战赛中一些针对AFEW数据集的方法被提出。几种流行的方法,例如多内核学习,多特征融合和分数级融合被报告对于提升识别性能非常有用。约内斯库等人提出了一个局部学习方法来提高基于图像的人脸表情识别的词袋模型。其他工作包括,由基于中级表示视频的流形建模提出了一个人脸表情识别框架。

使用深度学习方法的人脸表情和情感识别被提了出来。尤其是,唐报告了一个与一个线性支持向量机(SVM)输出共同学习的深度卷积神经网络。他的方法在FER-2013挑战赛上不仅达到了公共(验证)同时也是私有数据的第一名。刘等人提出了一个使用3DCNN和可变形的动作部分约束的人脸表情识别框架,以便共同定位人脸动作部分和学习表情识别的基于部分的表示。此外,刘等人也引入了预先训练的Caffe卷积神经网络模型来提取图像级特性。最后,Kahou等人的工作可能是和我们提出的方法最相关的。他们的方法分别训练了一个用于视频的卷积神经网络和一个用于音频的深度受限玻尔兹曼机(RBM)。“嘴袋”特性也被提取出来用来促进提高性能。两个大型数据集:多伦多人脸数据集和谷歌数据集被合并到训练卷积神经网络的网络。谷歌数据集恰好是提供给FER-2013大赛的同一个数据集,因此我们的方法与之共享了部分训练集。尽管有这样的巧合,我们所提出的学习策略与之相比有显著的不同。首先,只用了AFEW训练数据来训练聚合SVM,而我们选择在外部数据上预先训练我们的卷积神经网络模型然后对SFEW训练数据进行了微调。微调被证实对于提高在SFEW上的分类性能是至关重要的,因为它把验证集上的精确度从45%显著提升到53%。

其次,不同模型的权重组合是随机搜索确定的,而我们的成果提出了通过优化一定的损失的函数来自动学习组合权重。

3.人脸检测

SFEW数据集包含标记了的电影帧。虽然可以直接在帧一级提取特征,找出人脸的位置有利于识别任务并且人脸检测器的性能是与识别精度高度有关的。虽然通过EmotiW大赛提供的使用混合树(MoT)的人脸比对结果在许多具有挑战性的情况下是准确的,但它们包含大量的不容忽视的漏报或者误报的人脸。因此,我们组合多个最先进的人脸检测器来确保检测的准确性。我们最终的人脸检测模块包含三个检测器:联合串联检测及对准(JDA)检测器,基于深度卷积神经网络(DCNN)的检测器和MoT。在人脸检测之前,所有输入的电影帧被缩放到1024times;576像素以便恢复其原始的宽高比。

JDA能够以非常高的对准准确度和检测精度返回检测到的人脸。结果,我们把这个检测器放到检测模块的第一层上。然而,一个微小的缺点是,JDA的检测效果对于人脸的轮廓来说是不能令人满意的。基于DCNN的检测器显示了对于非正面甚至人脸轮廓的卓越的检测性能。在SFEW的自然环境下,这是对JDA的一个很好的补充。对于具有多个检测的任何帧,返回最大的人脸。这种策略通常工作良好,除了在最大的人脸不是用于情感识别的非常偶然的情况下。图1给出了使用这两个检测器的检测结果的一些例子。前两个例子表明JDA提供了比DCNN稍好的定位结果。第三个例子是一个更复杂的例子,在其中,DCNN对JDA进行了补充。最后,最后一个例子显示了在多个检测器检测的情况下被错误地返回的人脸。返回的是左边的较大的人脸,而右边的人脸应该是实际上被返回回来的。

在少数情况下JDA和DCNN检测器都失败了,此时我们引入MoT作为检测层次的最后一步。图2展示了一个模块的大概的示意图。表1说明了在SFEW测试集上使用单个检测器以及两个串联组合的正确检测的人脸数。串联不同的检测器可以获得显著提升的结果。在372幅SFEW测试帧中由我们提出的串联组合正确的检测出了371张人脸。注意“JDA DCNN”和“JDA DCNN MoT”被标记为“1 2”和“1 2 3”来作为简称。

表1:在SFEW测试集上使用不同的检测器以及串联组合正确检测的人脸数目

JDA

DCNN

MoT

1 2

1 2 3

数量

333

358

352

363

371

图1:由JDA(红)和DCNN(蓝)检测的人脸的示例

图2:在SFEW 2.0上提出的人脸检测模块的系统示意图

4.人脸预处理

人脸预处理被证实是对好的识别性能来说至关重要的步骤。它帮助移除不相关的噪声并且把所有的人脸统一到相同的域里。自从我们决定在FER数据集上预先训练我们的深度网络模型,在SFEW数据集上检测的人脸被统一缩放到48times;48并且被转换为灰度,这样就和FER数据相同了。

无论是SFEW数据集还是FER数据集的人脸图像都是用标准的直方图平衡化方法来进行预处理的,随后再使用线性平面拟合来除去不平衡光照。最后,平面拟合后的图像像素值被标准化为一个零均值和单位方差向量。

5.提出的卷积神经网络模型

我们训练基于我们自己的7层隐层卷积神经网络的C 和Cuda实现的深度网络模型。架构和我们的卷积神经网络模型的参数已经精心设计过,来优化其对人脸表情识别任务的性能。在本节的剩余部分我们将描述所提出的卷积神经网络模型的细节。

5.1基本网络架构

该网络架构的概述在图3中示出。该网络包含五个卷积层,三个随机池层和三个完全连接层。我们采用随机池而不是最大池是为了即使只有有限的训练数据也能得到好的性能。不像最大持选择最大的响应,随机池基于由归一化的响应获得的概率分布来随机地采样响应。完全连接层包括遗失信息,另一种随机化的机制。这些统计随机性降低了网络的过度拟合的风险。

输入到网络的是被预处理为48times;48的人脸。第二和第三随机池层都包括两个卷积层在随机池之前。过滤器对于所有的卷积层把高度和宽度都设置为1。非线性映射函数对于所有的卷积层和完全连接层被设定为校正线性单元(ReLU)。对于随机池层,窗口大小被设定为3times;3并且进展都被设定为2。这使得每个池层之后响应图的大小减小到一半。

网络的最后阶段包括softmax层,随后是一个被如下定义的负对数似然损耗:

在其中N是训练样本的总数。xi是第i个训练样本,yi是xi的标签。P(y|xi)是给定xi的第y类类别上的网络输出响应。该网络使用一次128个例子大小的自适应梯度方法进行训练。

图3:提出的基本卷积神经网络的网络架构

5.2生成随机扰动

当FER数据集包含超过35000个比SFEW数据集相当大的标记的样本,如果我们随机扰动具有附加变换的输入的人脸,分类的性能可以进一步改善。随机扰动本质上会产生额外的看不见的训练样本,因此会使得网络对于偏差的和旋转的人脸更具健壮性。

一个类似的方法被提出,在文中作者通过对从原有的图像进行随机的裁剪和翻转40times;40的人脸图像来给他们的网络提供数据生成了扰动的训练数据。由于SFEW数据集的困难和自然的性质,所检测的人脸可以包含多种不同的姿势,裁剪比例和偏差。为了尽可能地在训练中覆盖到这些,我们考虑通过以下随机仿射图像扭曲来进行更全面的扰动:

在其中theta;是从三个不同的值随机取样的旋转角度:。s1和s2是沿着x和y方向上的偏斜参数并且都随机地取样自{-0.1,0,0.1}。c是定义为c=47/(47minus;delta;)的随机比例参数,在其中delta;是一个在[0,4]这个区间上随机取样的整数值。t1和t2是两个平移参数,其值是从{0,delta;}取样并且和c关联。在现实中我们可以用下面的逆映射来生成扭曲的图像:

在其中A是偏斜,旋转和缩放矩阵的组合。输入(x#39;isin;[0,47],y#39;isin;[0,47])是扭曲图像的像素坐标。公式(3)简单地计算出一个逆映射来找到对应的(x,y)。由于所计算的映射大多数情况下包含非整数的坐标,双线性插值用于获取扰动的图像的像素值。对于原始图像外的像素映射,我们取它的镜像位置的像素值。最后,输入的训练用的人脸也被随机地翻转以进一步引入额外的健壮性。图4的上面那行给出了6例无扰动的人脸而下面那行显示其对应的随机扰动的人脸。

图4:扰动后的人脸的示例与提出的仿射扭曲策略

5.3学习和摄动投票

随着训练集的扰动,我们的网络的损失函数经过修改以考虑到所有的扰动:

在其中P是扰动的总数。是带有第p个扰动配置的xi。在实践中,我们不需要真的用扰动来扩展训练集。相反,每个批次的128个样本在P个可能的配置下随机地扰动。

在我们的方法中的一个额外的关键提升是输出每个测试图像的响应作为来自所有扰动的样本的响

全文共6093字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[154371],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。