基于深度学习算法的人脸识别技术分析外文翻译资料

 2023-07-28 11:42:11

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度学习算法的人脸识别技术分析

李良

中国江苏南京江苏商业职业学院

摘要:随着深度学习技术的迅猛发展,人脸识别和其他识别技术大多采用深度学习算法进行识别。虽然深度学习算法具有很高的识别精度,但它对计算量有巨大的需求。在移动终端中,我们可以使用能够加速深度学习操作的人工智能芯片来完成相关操作。深度学习有固定模式,如卷积。人工智能芯片通过优化相应的操作模式,可以显著提高深度学习操作的效率。这样,移动终端可以快速实现复杂的深度学习操作,例如基于深度学习的人脸识别。Ai芯片的一个代表就是Google的张量处理单元,它能够加速深度学习系统的张量流,效率远远高于Gnus。与相同的中央处理器相比,Tpu的性能提高了1,530倍,效率(性能功耗比)提高了3,080倍。传统的人脸识别算法包括基于Pca(主成分分析)的人脸识别技术和基于Ad Boost的人脸定位技术。虽然传统的人脸识别技术速度很快,但检测效果与深度学习技术有很大不同。一方面,以主成分分析为代表的传统人脸识别方法的准确率远远低于深度学习算法。另一方面,对于大量用户的识别而言,传统的Pca人脸识别技术已经不能胜任这个任务。

1、引言

人脸识别系统主要包括四个核心环节:人脸检测、人脸对齐、人脸特征提取和人脸识别。通过摄像机获取图像或图像序列,以判断输入图像中是否有人脸。根据人脸的大小和位置以获得人脸图像。然后是人脸图像检测关键点和人脸对齐处理;接下来,提取人脸图像以获得人脸特征信息。最后,对人脸特征向量进行识别和分类,得到人脸的分类。

人脸检测的目的是分析输入图像并且确定输入图像中是否有人脸。如果有的话,可以得到人脸的位置和大小。目前,人脸检测算法有很多,包括模板匹配模型、支持向量机模型和Ad Boost模型等。考虑到人脸检测的效果和运行速度,本文选择了基于深度学习算法的人脸检测定位方法。

人脸匹配是指在检测到的人脸图像上自动定位关键的人脸特征点,如眼睛、鼻尖、嘴角、眉毛和人脸各部分的轮廓点。以面部外观图像为输入,以面部形状为输出,即特征点集。目前有很多人脸匹配算法,包括Asm、Aam、Clm和一系列改进算法。然而,Esr和3d-Esr更受欢迎。人脸对齐方法常用于人脸器官定位或器官跟踪、人脸表情识别、人脸漫画图像生成等。本文定位了人脸图像中眼睛、鼻尖和其他关键点的位置,并根据关键点的位置和距离对人脸图像进行旋转、裁剪和对齐。

特征提取的目的是提取面部特征的主要信息。为了能够很好地表现人脸的特征,需要满足以下条件:人脸受光、噪声等与人脸无关的外界干扰因素的影响较小;尽可能多的面部特征和相对完整的信息;避免高维数据。

匹配识别是人脸识别系统的最后一步。选择合适的分类方法,将待识别的人脸与单样本数据库中已知的人脸样本进行匹配,从而得到最终的人脸识别结果。其中需要和人脸验证区分开来,人脸验证是判断两张人脸图像是否是同一个人,而人脸识别是多张人脸验证,是一对多的匹配识别过程。

卷积神经网络的网络结构可以根据功能分为三个部分。第一部分是特征提取,这是卷积神经网络最重要的部分。它由卷积、非线性变换和汇集的周期性交替组成。卷积是通过卷积核和目标图像做运算,产生图像的一些特征,卷积的非线性变换是根据一定的原理得到二次处理特征的阶段,这样可以增强模型的特征表达能力,通过汇集运算可以得到更多的低分辨率图像,其目的是获得一定的平移不变性,让图像的主要特征之一更加突出,为了提高图像识别的鲁棒性,常用的池化函数中,有一个最大平均池化核池是用特定区域的平均值或最大值代替其原始值,经过特征提取层,形成特征向量后,得到的特征图通过全连接层连接到最终输出层。其中整个连接层通过特征的相互组合提高了事物的表达能力。

caspealr1数据集是一个大规模的中文人脸图像数据库。数据集共包含30,900幅图像,大小为360*480,适用于1040人,分别为正面图像子库和姿态图像子库

在本文中,数据集的姿态图像子库是面向多姿态人脸识别的。子库共包含1040人的21840张图片。如图1所示,每个人有21个姿态变化图像,包括3个姿态变化(头上和左右翻转 偏航,右和左翻转偏航,头下和右和右翻转 偏航,每个仰角姿态下分别有7个水平深度旋转姿态变化。150, 220, 300, 450, 670.

图1 不同姿态样本的卡尔-皮尔-R1数据集

随着平宁市的建设和发展,全国各地建立了强大的视频监控网络系统。在视频监控中,能够快速、准确地确定行人的身份信息,已经成为研究领域的热点问题。其中,身份识别技术作为信息安全和人工智能领域的重要研究方向之一,已经成为一项有待发展的关键技术。近几十年来,安全方便的身份识别方法是生物识别技术,它是指利用人体的个性化生物特征进行身份认证的识别技术,如人脸识别、虹膜识别、指纹识别、掌纹识别、声纹识别和签名识别。与传统的身份认证方法相比,基于生物特征技术的身份认证的优势在于利用了人体的个性化信息,这些信息是不可窃取和伪造的。

2.易用性

随着Alpha GO击败GO冠军leese-dol,人工智能开始成为一个世界性的热门话题,深度学习是实现人工智能的重要方法之一,但它不是原始科学家的一种新方法,它只是传统神经网络的延伸,也可以说是神经网络在大数据时代的进一步发展。目前在图像识别、自然语言处理、音频处理、金融等领域有着优异的表现。

深度学习的产生和发展并不是一帆风顺的,经历了一个漫长而曲折的过程,最初的神经网络只是用简单的线性加权求和来模拟输入和输出的转换过程,但是这个过程需要人们建立连接权值,由于更多的人为因素加入而无法达到最佳效果,为了使神经网络能够独立学习更新权值,后来出现了感知器模型,这种机器学习的模型现在产生了很大的效果。而感知器模型只能解决线性可修性问题,不能解决线性可修性问题。20世纪80年代,分布式表达式和反向传播算法应运而生。分布式表达的核心思想是现实世界中的知识和概念应该由多个神经元来表达,每个神经元可以参与多个特征的表达,这大大增强了模型的特征表达能力,使得神经网络对于线性不可分问题有更好的性能。反向传播算法也大大降低了神经网络训练的复杂度。到目前为止,反向传播算法是神经网络训练的主要算法。随着计算机性能的提高以及云计算和GPU的出现,计算能力不再是神经网络研究的难题。同时,随着互联网 的快速发展,我们可以轻松获取海量数据。随着这些问题的解决,深度学习开始了。随后,在ImageNet举办的图像分类比赛中,深度学习算法也取得了惊人的成绩,在自然语言处理、语音识别等领域取得了突破。

深度学习能够取得如此显著的成就,与特征的强大的表达能力有着密切的关系,传统的手工提取是基于一个人的思想特征的方法,而所选择的特征主观性太强,所以对一个事物的反应表现不是很好,同时,要花时间和精力去考虑如何设置特征,如果针对不同的任务,又要去设计特征。在特征提取过程中,深度学习完全不需要人的参与,通过自身的学习可以获得良好的特征。研究表明,人脑对信息的处理是有层次的,深度学习的层次结构正好与之对应。与浅层模型相比,深度学习方法对图像等高度非结构化和复杂的分布式数据具有更强的表征和泛化能力。

深度模型的成功离不开两个重要的基本条件。一个是海量的训练和测试数据集,因为只有尽可能多的数据才能准确描述一个模型。原来GPU只用于图形显示。近年来,由于其在海量数据并行计算方面的突出表现,已经成为深度学习的计算硬件基础。目前,主流的深度学习框架如Cafe和都支持CPU。

深度学习可以分为无监督学习模式和有监督学习模式。无监督深度学习模型主要包括基于受限玻尔兹曼机的深度置信度网络和基于自动编码器的深度网络。监督学习深度模型包括多层感知器和深度卷积神经网络。

神经网络是一个具有学习功能的系统。当我们将训练样本输入网络时,网络可以自动学习和调整权重,以满足输出与样本标签之间的最小误差。训练好的模型就像一个参数已知的函数,每个输入都会给出一个特定的输出,用于模型的预测目的。一般的神经网络由输入层、隐藏层和输出层组成,每层包含一定数量的神经元,具体的神经元数量要根据要分析的具体问题来设置。神经元的结构如图1所示

图2 神经元的结构图

神经元的输出如下:

神经元模型包含输入、权重、阈值、激活函数和输出。输入乘以相应的权重再求和,再加上一个阈值,结果馈入激活函数得到输出。这个过程类似于大脑中神经元之间的电化学变化。

多层神经网络是由一个或多个隐藏层组成的网络结构,如图2所示,它是一个三层神经网络,包括一个隐藏层。神经网络学习执行特定的功能。其中,反向传播算法是最常用的学习算法。学习过程分为正向传播和反向传播。

图3 多层神经网络结构图

20世纪60年代,生物学家Hubel和Wiesel观察了猫大脑中的神经元如何对投射在猫面前屏幕上精确位置的图像做出反应。人们称之为感受域

因为感受野只是局部活跃的,所以它是图像之间局部关联的良好指示器。受这一想法的影响,福岛提出了被认为是第一个CNN工程实施网络。CNN的基本结构由输入层、卷积层、汇聚层、全连接层和输出层组成。

卷积神经网络的网络结构可以根据功能分为三个部分。第一部分是特征提取,这是卷积神经网络最重要的部分。它由卷积、非线性变换和汇集的周期性交替组成。卷积是通过卷积核和目标图像做运算,产生图像的一些特征,卷积的非线性变换是根据一定的原理得到二次处理特征的阶段,这样可以增强模型的特征表达能力,通过汇集运算可以得到更多的低分辨率图像,其目的是获得一定的平移不变性,让图像的主要特征之一更加突出, 为了提高图像识别的鲁棒性,常用的池化函数中,有一个最大平均池化核池是用特定区域的平均值或最大值代替其原始值,经过特征提取层,形成特征向量后,得到的特征图通过全连接层连接到最终输出层。 其中,整个连接层通过特征的相互组合,提高了事物的表达能力。

第一次卷积运算是1 * 1 1 * 0 1 * 0 1 * 0 1 * 0 1 * 0 0 * 1 0 * 0 1 * 1 = 4。这样,获得图像中第一位置的特征值。然后卷积核向右下移动一个像素,以执行卷积运算。最后你会得到一个3乘3的卷积核。

图4 卷积运算图片

与多层感知器相比,由于卷积层的权值共享特性,卷积神经网络模型的参数较少,因此更易于训练,且具有较强的泛化能力。同时,池化使模型更加健壮。在卷积层,我们通过卷积核提取图像的一些特定特征。不同的卷积核提取不同的特征。因此,卷积核的数量对于特征提取也很重要。如果卷积核太少,提取的特征会相对较小,不利于各种类别的区分。过多的卷积核会使模型更加复杂,增加训练成本。对于特定的分类任务,现在主要是基于多次试验来选择更好的结果。

脸部的特征是非刚性的并且很多反映个体差异的细节。人脸特征提取是检查人脸图像中的每个像素,以确定该像素是否具有代表性。人脸图像的特征提取是将像素描述的人脸数据转换成形状、纹理、运动等高级描述

基于浅层研究的传统人脸图像的特点是选择低层特征的完备性进行浅层模型描述,如Gabor特征、LBP特征、sift特征等。,而且随着硬件性能近年来的提高,深度学习以其极高的灵活性、极强的拟合性、极强的适应性,逐渐在不同领域涌现。目前,基于深度学习的人脸识别方法已经取得了丰硕的成果。在人脸图像的人脸特征提取中,不仅要考虑表情、姿势等外部因素引起的人脸图像的类内变化,还要考虑个体差异引起的类间变化,两者都是非线性的,高度复杂。基于深度学习的特征提取是一种模拟人类视觉感知系统的认知学习,能够提取更具表征力的人脸深度特征,进一步改善人脸的类内和类间变化的影响。

FaceNet是Google 2015年的经典人脸识别网络,不同姿态下的人脸识别是使用具有高内聚力的相同样本,不同人的样本具有低FGC的特点,提出了卷积神经网络与三元损失函数相结合的方法,即通过卷积神经网络提取人脸的深度,然后利用三元损失函数将特征向量映射到欧洲空间,计算不同样本映射后的特征向量距离,用于人脸识别。三值损失函数的目的是训练和学习网络参数,使同一个人的样本间距始终小于不同人的样本间距。

基于FaceNet的人脸识别方法主要分为以下步骤。

  1. 利用FaceNet网络从人脸图像中提取特征向量。关于网络的选择主要有两点。首先是特征向量的维数选择问题。维数越大,越容易区分不同的图像。但是,过大的训练模型不容易收敛,测试时计算速度慢,占用大量空间。实验表明,128维特征可以很好地平衡这个问题。第二,CNN模型的选择,精度高的模型往往参数多,计算量大。较小、精度较低的型号最适合移动设备。服务器上可以使用高精度、高计算量的模型。
  2. 使用三元损失函数。有些学者采用二元损失函数。二元损失函数的目标是将同一个体的面部特征映射到空间中的同一点,而三元损失函数的目标是将同一个体的面部特征映射到同一区域,使类内距离小于类间距离。三重损失函数,三元组是一个三元组,从训练数据集中随机选择一个样本,该样本被记录为x - a (Anchor),然后从一个样本中随机选择与x - a属于同一类和不同类的样本,对应的两个样本被记录为x - p(),和x - n (Negative),从而形成一个(a,x - x - p,x - n)三元组,如图4所示。三重损失函数的目的是通过学习和训练获得一组网络参数,使同质样本的特征间距尽可能小,同时使异质样本的特征间距尽可能大。为了保证训练的收敛速度,通过选择最远的同质人脸图像和最近的异质人脸图像来训练三元组数据
  3. 识别和验证。通过计算人脸图像映射到欧氏空间后特征向量之间的距离,并设置阈值,得到人脸分类结果。

图5 三重态损失函数图解

在基于深度学习的人脸模型的实际应用中,一方面,为了网络模型的良好,需要大量的数据来训练学习网络,同时也需要计算机强大的计算能力,这阻碍了深度学习网络的广泛应用。另一方面,对于特定的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[604641],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。