基于HOG-EBGM的人脸识别算法外文翻译资料

 2022-10-26 10:18:28

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


基于HOG-EBGM的人脸识别算法

摘要

本文提出了一种新的基于EBGM的人脸识别算法,该算法使用HOG描述符来替换Gabor特征。在公共的人脸数据库上,相比于其他的人脸识别算法,该算法表现出更好的性能。HOG描述符对光照变化、姿势变化、微小偏移更加鲁棒,相比于传统的基于Gabor特征的EBGM算法,基于HOG描述符的EBGM算法能够获得更加精准的人脸束图,因此可以达到更高的识别率。

关键词:人脸识别 EBGM SIFT HOG 局部图像特征

1. 导论

在过去的十几年中,人脸识别由于在公共电子监控、视频分析、多媒体和其他领域的众多应用而吸引了极大的关注。

很多算法被提出来解决人脸识别的问题,我们推荐《Face recognition: A literature survey》这篇文献,它是人脸识别领域一个比较全面的调研和总结。人脸识别技术,从大的方向上讲,可以分为两种:整体处理方法和基于特征的方法。整体处理方法,例如PCA,LDA,它们将输入的人脸图片映射到降维之后的空间中,在这个空间中完成人脸的识别。这种类型的方法,在今天看来,可以视为人脸识别的传统方法。然而,因为它们的简单和良好性能,直至如今,它们仍然很受欢迎。基于特征脸的人脸识别算法最大的问题在于,从某种意义上讲,它们认为,人脸是一种可以分解成特征脸的线性组合的刚体,然而,这种假设本身并不正确。当光照条件发生变化的时候,这些算法的性能急剧下降。为了克服这些困难,很多原始方法的改进方法被提出来了。

基于特征的人脸识别算法试图通过人脸的组成部分,如眼睛、鼻子、嘴巴等,来进行人脸的识别。AAM(主动外观模型)算法和EBGM(弹性束图匹配)算法就属于这一种类型。在EBGM算法中,人脸被看作是一张图,图中的每一个结点就是人脸的每一个特征点的相关信息,这些特征点包括眼睛、鼻子、嘴唇等等。在每一个特征点,我们提取它的Gabor小波系数作为特征点的特征值。为了增强EBGM算法对于表情和光照变化的鲁棒性,新的解决方法被提出来了。例如,在《Generalized elastic graph matching for face recognition》一文中,一种替换原始Gabor小波系数的图匹配算法被提出。跟踪这一条研究的线索,本文提出一种新的图匹配算法,将原始的Gabor小波系数替换为HOG描述符,其中HOG描述符来自于SIFT。SIFT算法已经成为从图像中提取特征的尖端技术,用于匹配对象或场景的不同视图的任务。通过在图像的尺度表示空间中的局部极值中提取关键点,SIFT算法能够实现尺度变换不变性,每一个关键点通过图像梯度直方图表现出来。在《Speeded up robust features. In: Proc. 9th European Conf》一文中,HOG描述符被提出来可以用于行人检测。在这种方法中,目标对象被假设为有固定的尺寸,被划分为相邻的小块,对每一个小块提取HOG描述符,将所有的这些HOG描述符组合起来,就可以表示出这个对象。

SIFT方法最近被提出来可以用于人脸识别,但是这种方法跟本文提出的方法有根本的不同。在Bicego算法中,关键点在尺寸空间的局部极值处取得。这种方法的最大问题是,对于关键点的位置、尺寸、数量都没有很好的控制。然而,在我们的算法中,关键点表示特定的人脸特征点。正如下面所说的,人脸特征点将会首先被检测到。一旦所有的人脸特征点都被检测到,我们就使用HOG描述符来表示它们。本文接下来的部分的组织如下:在第二部分中,我们详细地讲述了HOG描述符是如何建立的;在第三部分中,我们讲述了使用HOG描述符的EBGM算法;在第四和第五部分中,我们讲述了实验的具体配置和实验结果;最后,在第六部分中,我们做一些总结,并提出未来的研究方向。

在本文接下来的部分中,我们将使用Gabor-EBGM或者EBGM来指代在《Face recognition by elastic bunch graph matching》中提出的原始的EBGM算法,并使用HOG-EBGM来表示本文中提出的EBGM算法。

2. HOG描述符

正如前面所提到的,SIFT方法因为具有处理图像变换,如尺寸变换、图像旋转、光照变化的能力,已经成为最常用的检测/描述方法。SIFT算法的主要步骤如下:

(1)在尺度空间中进行极值检测;

(2)图像方向校正;

(3)提取关键点的描述符

SIFT算法采用第一步来实现尺度变换无关性。在第一步的操作中,我们提取图像尺度空间表示中局部极值处的SIFT特征,第二步的目的在于获取图像旋转无关性。为了达到这个目的,在每个尺寸空间表示的局部极值处,SIFT算法通过图像的梯度信息来寻找主方向,然后,我们就可以让所有的图像梯度都相对于这个主方向。尽管对于任意变换尺度和旋转的图像来说,以上两种方法已经被证明非常有效,但是事实上,这些正规化操作去除了潜在的对识别有用的信息。在本文中,我们假设人脸中双眼的确切位置是已知的。为了探测到眼睛的精确位置,我们开发了一种新的算法,先使用《Rapid object detection using a boosted cascade of simple features》中提出的加速分类器,然后使用HOG描述符。然而,这个问题可以被视为人脸精确定位,并且不在本文的讨论范围之内。虽然双眼的精确位置被用于正规化人脸,但是我们并不希望有任何的尺寸变化或者图像旋转。因为这个原因,我们跳过了SIFT算法的前两个步骤,并且只探讨最后一个步骤-关键点描述符。这里的关键点描述符在文献中又称为HOG特征。

HOG特征是一个关键点周围图像梯度方向的局部统计。更加正式地讲,每一个描述符就是一束梯度方向直方图。所有可能的方向的数目(直方图条数)被称为N0。这一束直方图中的每一个都描述了特征点周围的一个特定区域。

图1 正规化的人脸和右眼HOG描述符的空间子窗口

这些区域对应于以关键点为中心的Np*Np个正方形小方块。在《Distinctive image features from scale-invariant keypoints》一文中,设置:Np=4,N0=8,这样,一个HOG描述符就有4*4*8=128个元素。在我们的研究工作中,每一个空间小方块都是5*5像素的正方形。这个大小的选取是根据规范化后人脸中双眼之间的距离来决定的,在我们的研究中,这个距离是40个像素点。在5.1.1节中展示的结果将会进一步验证这个选择的正确性。

与Lowe的原始方法相似,根据梯度模量和高斯窗口大小,直方图中每一个梯度方向都分配了一个权重系数。高斯窗口的中心位于关键点处,其标准差等于空间范围延伸的一半,也就是10个像素。并且,每个点的贡献被分配到相邻空间子区域中,直方图的方向条采用三线性插值,这对于消除边界效应是非常重要的。边界效应是指,当一个样本从一个子区域到另一个子区域,或者从一个方向到另一个方向进行光滑地转换时,描述子会突然地发生变化。高斯窗口和三线性插值增加了描述子对于关键点微小位置偏差的鲁棒性。

最后,描述子被规范化以增加对光照变化的鲁棒性。在Lowe提出的算法中,128元素的描述向量被规范化到单位长度。这个规范化过程取消了图像对比的差异。请注意,我们并不关心亮度的变化,即增加到像素值的常量,因为它在计算图像梯度的时候被抑制了。最后,超过0.2的描述子被过滤掉,剩余的描述子被规范化到单位长度。这最后一步的目的在于消除非线性光照变化。

3. Elastic bunch graph matching

EBGM算法的主要思想是,在一张人脸上确定若干个关键点,分别在每个关键点处提取特征,然后与已知的人脸特征数据库进行对比,计算相似度,来识别待测人脸的身份。传统上来说,EBGM使用Gabor小波系数作为特征来定位和匹配人脸特征点,在我们所提出的方法中,我们将Gabor小波系数替换为HOG描述符。我们EBGM算法的实现是基于《Face recognition by elastic bunch graph matching》中所提出的算法思路。在CSU算法评测系统中,EBGM作为人脸识别算法对比的一种基准算法。基本上,本HOG-EBGM算法可以分为以下三步:

(1)图像规范化

(2)建立人脸束图

(3)人脸束图匹配

图像规范化步骤的目的在于减少由于光照、尺寸和图像旋转所产生的变化。接下来的一步,在检测到所有的人脸特征点之后,建立人脸束图。当然了,识别算法成功与否,取决于人脸特征点的选取好不好。更确切地讲,人脸特征点需要满足两个条件:1.在不同的人之间,具有高度的区分性;2.在一个全自动系统中,能够比较容易地检测到所有的特征点。我们的人脸束图遵循CSU项目中所提出的结构,如图2所示,有25个人脸特征点,特征点的编号也是搜索的顺序。

有必要指出,并不是所有的特征点对于人脸识别具有相同的重要性。某一些研究(如《Face recognition: A literature survey》)指出,眼睛和鼻子周围的区域对于识别人脸非常重要,因为这个原因,相对较多的特征点都位于这两个区域。接下来的部分将会详细地阐述我们HOG-EBGM算法的步骤。

图2 CVL图像中的人脸束图和25个人脸特征点,标号同时表示搜索顺序

3.1 图像规范化

正如以上所说的,在本文中,我们假设双眼的确切位置是已知的,这使得规范化任务变得简单,因为它只需要处理尺寸变化和图像旋转。经过规范化之后,人脸图片的大小为120*160像素,左眼位置(40,80),右眼位置(80,80),在计算图像梯度之前,尺寸的规范化是尤其重要的。

3.2 人脸特征点定位与建模

在EBGM算法中,每一张人脸都由一张唯一的人脸束图来表述。在人脸束图中,每一个结点都是由关键点的位置和对应的HOG特征组成,更加正式的表述如下:

为了自动定位待测人脸中的特征点,我们需要所有特征点的模板。这些模板应该考虑到各种变化,如表情、发型、光照等。与原始的EBGM算法相似,我们通过束图为每一个特征点建立模型。这些HOG描述符是人工地从Nf张规范化的训练人脸中提取出来的。接下来,,表示这个HOG描述符是从第k张训练人脸中提取的第i个(注意,人脸束图是由25个关键点组成),最后我们称人脸束图FBG为所有关键点模型的总称:

这个FBG用于自动地迭代式地建立新的人脸束图,并使用已经探测到的特征点来减少需要搜索的区域。搜索新的人脸特征点的顺序,根据经验来设定,以产生最好的结果。具体就是,既然我们首先探测眼睛的位置,那么靠近眼睛位置的特征点应该优先搜索。

检测第i个人脸特征点的过程如下:

(1)粗略估计。根据第i个点和第j个点之间的位移的平均值,具体来讲,

(a)令d(i,j)表示人脸束图中特征点i和特征点j之间的平均位移;

(b)令Xj表示已经探测到的第j个特征点的位置;

(c)对于每一个Xj ,我们定义 Xi = Xj d(i , j)作为第i个点的初始预测位置;

(d)Xis 的初步估计,Xis =1/(i-1)sum;jlt;i Xi(j) ,即之前特征点估计值的平均值。

(2)计算之前位置的HOG描述符;

(3)比较HOG(Xis) 和 ,并且令:

Kmin = min( HOG(Xis) -

(4)定义Xis 周围的一个搜索区域Si , 搜索区域的范围取决于关键点的类型,根据经验,我们根据每个特征点的分布情况来设置搜索区域。

(5)通过fbgi(kmin)来改善第i个关键点的初始估计Xi = min( HOG(X) – fbgi(Kmin) )

请注意,在本文中,HOG描述符之间的比较都是通过欧几里得距离完成的。

3.3人脸图的创建与距离测量

为了比较来自两张不同人脸的人脸束图FGk , FGl , 我们简单地将对应的特征点描述符差异累加。

图3 每一个人脸特征点的搜索区域和搜索到的特征点

图4 人脸样例图 (a) Yale人脸库 (b) CVL人脸库 (c) FERET人脸库

4. 实验配置

在本文中,所有的实验都是在以下三组人脸数据库中完成的:1. Yale数据库 2. CVL人脸数据库的子集 3. FERET人脸数据库 Yale数据库包含了15个对象的165张正面人脸照片(每个对象11张),表现了表情和光照的变化。CVL数据库包含了114个人在均匀光照、不同倾斜角条件下的7张照片。在本实验中,我们只使用其中的正面人脸照片(3张/人)。图4b显示了CVL数据库中两个具有代表性人物的照片。FERET数据库包含了接近1000个对象的3365张正面人脸图片。正如图4c所示,FERET数据库图片被组织为1个训练集(fa)和4个测试集(fb,fc,dup1,dup2),其中,fa和fb的采集是在相同时期、相同光照、相同摄像头,但是不同表情变化。fa和fc的采集时期相同、摄像头不同、光照条件不同,最后,dup1,dup2是目前为止最具有挑战性的测试集。这些图片是受试对象几年后拍摄的,有时候还会带上眼镜、梳理头发。在本文中,我们使用Yale和CVL数据库来调整HOG-EBGM算法的参数,使用FERET数据库来比较HOG-EBGM和其他算法的性能

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[153921],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。