基于深度学习的人脸识别系统的设计与实现外文翻译资料

 2022-12-29 12:01:19

本科生毕业设计(论文)外文资料译文

( 2020 届)

论文题目

基于深度学习的人脸识别系统的设计与实现

外文资料译文规范说明

一、译文文本要求

1.外文译文不少于3000汉字;

2.外文译文本文格式参照论文正文规范(标题、字体、字号、图表、原文信息等);

3.外文原文资料信息列文末,对应于论文正文的参考文献部分,标题用“外文原文资料信息”,内容包括:

1)外文原文作者;

2)书名或论文题目;

3)外文原文来源:

□出版社或刊物名称、出版时间或刊号、译文部分所在页码

□网页地址

二、外文原文资料(电子文本或数字化后的图片):

1.外文原文不少于10000印刷字符(图表等除外);

2.外文原文若是纸质的请数字化(图片)后粘贴于译文后的原文资料处,但装订时请用纸质原文复印件附于译文后。

指导教师意见:

指导教师签名: 年 月 日

  1. 外文资料译文:

基于深度学习的人脸识别

关键词:人脸地标检测; 无限制人脸识别; 深度学习; 卷积神经网络; 孪生神经网络

  1. 引言

随着计算机科学技术的发展,人脸识别在日常生活和环境中得到了广泛的应用,人们对人脸识别的需求也越来越大。 提取和组合图像的语义信息需要有效的模式识别算法。 传统的人脸识别算法,如PCA[11],LDA[12],GABOR[9],LBP[10]等,在精度和特征提取方面都存在一定的不足。

在人类探索的过程中,神经网络,一个受生物学启发的数学模型被开发出来。 它是一个适应系统,可以通过学习程序来运作。 二层BP网络对Mnist字符库的识别准确率较高(98%),但其收敛速度较慢,通常需要数百次的收敛才能得到满意的结果,且容易收敛到局部最优解[8]。

为了解决上述问题,本文提出了卷积神经网络作为特征点定位的基本模型,以达到快速收敛,抑制信噪比和高精度定位的目的。 此模型也适用于面部地标检测。 由于卷积神经网络的训练需要大量的样本[6],本文提出了样本变换的方法来避免过拟合。 由于需要多输入,本文将卷积神经网络和孪生神经网络相结合,对人脸的不同部位,不同尺度进行训练,并对人脸的表示进行协调,实现了一对一的人脸识别。

深度学习

深度学习[5]通过多隐含层的机器学习模型和海量的训练数据,可以学习到更多有用的特征,提高分类和预测的准确性[3]。

2.1 卷积神经网络

卷积神经网络的出现很好地解决了神经网络计算量大,运算结果过拟合,缺乏局部特征等缺点。 通过其局部感受野,共享权重和时域或空域采样,结果保持了位移,缩放和失真的不变性[4]。

通过在卷积神经网络中加入卷积层和池层,从而大大降低网络的维数,并将其输出为全连通层。

卷积层,共享权重:

卷积层,未共享权重:

池层:

:卷积层中第k个单元与最后一层的连接。:卷积层单元的宽度。 :卷积层单位的高度。t:卷积层的数目。:卷积中第k个单位的个数层与最后一层。 I:这一层的输入。 F:卷积核。 B:偏置。

函数gf的具体形式将在使用时介绍。

2.2 孪生神经网络

根据现有的卷积神经网络,它只能支持像这样的函数,其中X是求解实际问题的向量,y是这个模块的输出。 该模块不适用于分类或类型不明的情况。 因此,我们开始使用基于正常卷积神经网络的孪生神经网络。


图1.孪生网络

图1是Siamese概率网络,它支持)。,是实际问题的一个向量,y是它们相似能力。利用连体网络模块可以解决多样本输入和分类问题。

3 人脸地标检测

3.1模型分析

本文主要研究了在自然光条件下,由光学摄像机拍摄的二维人脸图像之间的一对一识别问题。 为了消除人脸表情,拍摄环境,图像大小等因素的干扰,本文采用了人脸地标检测的方法,如眼睛,眉毛,鼻子,嘴巴等来减少干扰。

为了便于处理,提高识别准确率和泛化能力,我们将人脸地标检测分为两个步骤:(1)人脸定位;(2)人脸内部地标检测。

人脸地标检测的核心问题是考虑两个约束问题:(1)纹理约束。 (2)形状约束。 人脸纹理约束是由局部像素点表示的,即人脸的眼睛,鼻子,嘴巴等部分。 脸部形状约束是脸部各部分的拓扑结构。幸运的是,卷积层可以充分利用这些局部纹理特征,重新训练一些噪声信号,而非共享层可以充分利用训练样本的拓扑信息。 图2显示了在随机图像上使用的内部面部地标检测算法的结果。 其结果相当像脸且稳定。

(a) (b)

图2.随机图像(a)面部地标检测结果(b)

3.2 模型创建

这里使用的卷积神经网络公式用2-1,2-2,2-3实现,人脸识别的函数gf为:

g(x )= | tanh( x) |

f (x) =max(x )

3.3 训练

我们所用的样本部分来自LFW[1],也部分来自中国科学院研制的CAS-PEAL-R1,我们对特征点进行了人工标定,得到了约6400个样本,这些样本包含了不同条件的人脸,如带眼镜,太阳镜,帽子的人脸,也包括侧面脸和不同种族的人脸。 我们将6400个样本映射成12800个样本。

如 3表明,在本文中,分层训练分为两个卷积神经网络。 每个网络都有一个监督训练[2],并且在调整了层的权重之后,我们不再更新权重。 分层训练可以避免由于网络层数过多而导致底层网络难以有效更新的情况,使网络收敛到更好的层次。 并且由于计算量的减少,大大加快了网络的收敛速度。为了提高训练机在有限样本情况下的泛化能力,减少训练过程中出现的过拟合现象,针对两种网络的不同特点,在随机梯度下降训练过程中进行样本变换。

图3.逐层训练法

为了缩小第二级网络的计算范围,提高网络的泛化能力,采用了第一级网络--人脸定位。 因此,在第一级对训练样本进行旋转,缩放,偏移等操作,可以使网络更好地泛化这些问题。

第二级网络--人脸地标检测,用于降低光照,碎片,面部表情等引起的无效纹理约束和无效形状约束带来的噪声。因此,到第二级样本,我们可以改变亮度,阴影模拟来训练形状约束。 以阴影模拟为例,我们将图像中某一区域的像素值固定为一个随机值,以模拟光照或遮挡的效果。

4 人脸识别

4.1 模型分析

本文利用基于人脸图像的眼,鼻,嘴等不同部位构造的孪生卷积神经网络聚类来提取特征向量,并将它们串联成一个特征向量来表示人脸图像[7]。

这里的孪生神经网络中的分类器是深度卷积神经网络的集合,该方法的特点是直接利用机器学习模型从图像的不同部位和尺度中提取特征,然后直接用于识别。

4.2 模型创建

这里使用的卷积神经网络公式用2-1,2-2,2-3实现,人脸识别的函数gf为:

g(x) log(1ex )

f (x) max(x)

4.3 训练

样本主要来自于人脸地标检测的结果,从LFW和Caspeal-R1中选取了最多8000个样本。 采用逐层训练的方法,每个训练层的人脸区域如下:(1)用第一层卷积神经网络训练眼睛,鼻子和嘴巴周围的临界人脸区域,(2)用第二层卷积神经网络训练左右脸颊周围的临界人脸区域,(3)用第三层卷积神经网络训练基于整个人脸的临界人脸区域。

孪生网络的训练采用基于梯度的反馈算法和随机梯度下降算法。 由于网络的深度,我们可以采用第三章的方法(逐层训练法)。 图4给出了分层训练方法的结构如下。

图4.分层训练法

训练通过两个步骤实现:前馈和反馈。

前馈:

训练集由M对输入示例和对应的相似性标签sm组成,hm是第m个输入示例的第一个样本。2Mh是第m个输入示例的第二个样本,是学习过程中优化的正系数,g(x)是孪生网络的代价函数。l

反馈:

w是孪生网络前的训练机参数,是第m个样本的输出。使用该函数的优点是使同一样本尽可能具有相似的输出,使不同样本的出有较大的差距,并将结果在0到1之间进行归一化,以显示相似的概率。

5 实验

5.1 人脸地标检测结果

ATamp;T ORL:在ATamp;T ORL人脸数据库中,人脸样本之间的旋转和光照变化相当小。 图像比其他图像更清晰。 平均误差与样本误差之间无显著差异,未出现过拟合现象。 在ATamp;T ORL上人脸地标检测的平均误差如图5所示,在ATamp;T ORL上人脸地标检测的部分结果如图6所示。

图 5.人脸地标检测的平均误差

图 6.人脸地标检测的部分结果

5.2 人脸识别结果

ATamp;T ORL:在这个人脸数据库中,样本的变化相当小,但是图像的分辨率比较低,只有92*92左右。 在测试过程中,图像的大小将达到146times;146。 然而,训练集中的实际图像分辨率一般大于146times;146,结果有待改进。 在ATamp;T ORL上进行人脸识别的结果如图7所示。

LFW:LFW图像表情最多,面部旋转角度最大。 由于本文主要研究的是正面人脸识别,所以LFW在人脸库中表现最差并非偶然。 基于LFW的人脸识别结果如图8所示。

图7.在ATamp;T ORL上的人脸识别结果 图8.LFW的人脸识别结果

6 讨论和结论

本文研究了卷积神经网络的深度学习问题,通过一种逐层训练方法和一种样本变换方法使其收敛更快并避免过度拟合。 孪生卷积神经网络模型有效地解决了多输入和未知类型的分类问题。 通过对ORL和LFW的反复测试,我们在人脸地标检测和人脸识别方面取得了较高的准确率。 由于时间和样本的限制,该方法的训练过程还需要进一步改进。 最后,该方法能够可靠地为制造企业带来一定的经济效益。

本课题得到了国家自然科学基金项目(批准号:61340058)和浙江省自然科学基金项目(批准号:Z14F020006)的资助。 作者也要对专家和审稿人表示感谢,他们提出了宝贵的意见,帮助改进了论文。

外文原文资料信息

[1] 外文原文作者:Weihong Wang() , Jie Yang, Jianwei Xiao, Sheng Li, and Dixin Zhou

[2] 外文原文所在书名或论文题目:Face Recognition Based on Deep Learning

[3] 外文原文来源: International Conference on Human Centered Computing: Springer, 2014:812-820.

出版社或刊物名称、出版时间或刊号、译文部分所在页码:

网页地址: https://link.sp

剩余内容已隐藏,支付完成后下载完整资料


Face Recognition Based on Deep Learning

Weihong Wang(), Jie Yang, Jianwei Xiao, Sheng Li, and Dixin Zhou

Zhejiang University of Technology,

No.18 Chaowang Road, Hangzhou, 310023 Zhejiang, China

wwh@zjut.edu.cn, yangjie4699@163.com

Abstract. As one of the non-contact biometrics, face representation had been widely used in many circumstances. However conventional methods could no longer satisfy the demand at present, due to its low recognition accuracy and re- strictions of many occasions. In this paper, we presented the deep learning me- thod to achieve facial landmark detection and unrestricted face recognition. To solve the face landmark detection problem, this paper proposed a layer-by-layer training method of a deep convolutional neural network to help the convolu- tional neural network to converge and proposed a sample transformation me- thod to avoid over-fitting. This method had reached an accuracy of 91% on ORL face database. To solve the face recognition problem, this paper proposed a SIAMESE convolutional neural network which was trained on different parts and scales of a face and concatenated the face representation. The face recogni- tion algorithm had reached an accuracy of 91% on ORL and 81% on LFW face database.

Keywords: Facial landmark detection · Unrestricted face recognition · Deep learning · Convolutional neural network · SIAMESE network

Introduction

With the development of computer science and technology, face recognition have been widely applied to daily life and the environment, and the demands are also grow- ing. Extracting and combining the semantic information of images needs effective pattern recognition algorithm. Traditional face recognition algorithm, such as the PCA [11], LDA [12], GABOR [9], LBP [10], etc., had certain deficiencies in preci- sion and feature extraction.

In the process of human exploration, the neural network, a biologically inspired mathematical model was developed. It was an adaptive system, which could operate through a learning procedure. 2-layer BP network achieved high recognition accura- cy(98%) for Mnist character database, but its convergence speed was rather slow, usually needed hundreds of times to converge for getting a satisfactory result, and easily converge to the local optimum solution [8].

In order to solve the problems mentioned above, we present convolutional neural net- work as the basic model to achieve the targets like fast convergence, signal noise sup- pression and high accuracy of feature points positioning. This model is also suitable for

copy; Springer International Publishing Switzerland 2015

Q. Zu et al. (Eds.): HCC 2014, LNCS 8944, pp. 812–820, 2015. DOI: 10.1007/978-3-319-15554-8_73

facial landmark detection. Since the training of convolutional neural network needs mas- sive samples [6], we propose sample transformation method in this paper to avoid over- fitting. Since Multi-input is needed, we novelly combine convolutional neural network and SIAMESE network for training on different parts and scales of a face and concate- nating the face representation, to achieve the one-on-one face recognition.

Deep Learning

Deep Learning[5], through machine learning models with multi hidden layers and massive training data, could learn more useful features, and improve the accuracy of classification and prediction [3].

2.1 Convolutional Neural Network

The emergence of convolutional neural network solved some shortcomings of neural networks well, like the computational burden, the over-fitting of operation results and the lack of local characteristic. Through its local receptive field, sharing weights and the time domain or spatial domain samples, the displacement, scaling and distortion invariance of the results maintained [4].

The convolutional neural network could decrease the dimension dramatically by convolutional layers and pooling layers in a convolutional neural network, then out- putted to a full-connected layer.

Convolutional Layer, shared weights:

Ci , j ,k g (z 1 y 1 x1 Iix1, j y 1,ct (z) * Fx, y,k Bk )

(1)

t cs

wc hc

t 1 t

k

Convolutional Layer, unshared weights(UNSHARE):

Ci , j ,k g

z1 y 1 x1 Ii x1, j y 1,ct (z)

Fi, j , x, y,k Bk

t ( cs ,k wc

hc t 1 * t

k

) (2)

Pooling Layer:

t t

I f (C )

i, j,k 0xd ,0yd (i1)*sx,( j1)*sy,k

cs :connections of the k-th unit in convolutional layer with the last layer.

(2-3)

wc :the

width of a convolutional layer unit. hc :the height of a convolutional layer unit. t :the

number of a convolutional layer.

ct : the number of the k-th unit in convolutional

layer with the last layer. I : the input of this layer. F :convolutional core. B

k

:biasing.

The specific form of function

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[273563],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。