英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
附录A 译文
用于单样本的视频人脸识别特定领域的人脸合成
法尼亚·莫哈耶里,IEEE学生会员
埃里克·格兰杰,IEEE会员
亚历山大·比洛多,IEEE会员
摘要:在视频监控中,人脸识别(FR)系统用于检测出现在分布式摄像机网络上的有用的个体。由于在多个摄像机上的无约束操作域(OD)中捕获的面部与在注册域(ED)中受控条件下捕获的面部相比具有不同的基础数据分布,反应到视频FR系统的性能可能显著下降。为了提高这些系统的鲁棒性,可以通过基于原始静止生成合成面来增加参考集。然而,在不了解OD的情况下,必须生成许多合成图像以考虑所有可能的捕获条件。因此,FR系统可能需要复杂的实施方案,并且在对许多不太相关的图像介绍了一种领域特定人脸合成(DSFS)算法,该算法利用了OD提供的代表性类内变异信息。在操作之前,通过在捕获的条件空间中的亲和传播聚类来选择出现在OD中的来自未知人的紧凑面部集。然后通过在3D可变形模型框架内集成基于图像的面部照明技术,将这些面部图像的特定域的变化投影到每个个体的参考静止图像上。在基于稀疏表示分类的特定实现中,利用DSFS生成的合成面部用于形成跨域字典,其考虑结构化稀疏性,其中字典块组合每个个体的原始面和合成面。使用来自Chokepoint和COX-S2V数据集的视频获得的实验结果表明,与现有技术相比,使用所提出的DSFS方法扩充静止视频FR系统的参考图库集可以提供更高的准确性。
关键词:人脸识别,单个样本,人脸合成,3D人脸重建,照明转移
1 引言
静止视频(S2V)人脸识别(FR)是几种视频监控应用中的重要功能,特别是对于观察列表筛选。给定目标个体的一个或多个参考静止图像,S2V FR系统可以在通过多个分布式监视摄像机捕获的视频中准确地检测它们[1]。
尽管最近在计算机视觉和机器学习方面取得了进展,但为S2V FR设计一个强大的系统仍然是现实世界监控应用中的一个挑战性问题。一个关键问题是来自注册域(ED)的面部之间的视觉域转换,其中参考静止图像通常在受控条件下捕获,其中视频帧在不受控制的条件下捕获具有变化。在视频中捕获的面部外观对应于多个非静态数据分布,这些分布可能与注册期间捕获的面部有很大不同[2]。另一个关键问题是每个目标个体可用于设计面部模型的参考静止图像数量有限。尽管面对来自群组或其他非目标人物,并且通常可获得来自未知个体的视频帧的轨迹。在许多监视应用程序中,每个人仍然只有一个参考可供设计,这对应于所谓的单人样本(SSPP)问题。由于可用于表示视频帧中所见的类内变化的有限信息,S2V FR系统的性能可能下降。许多判别子空间和流形学习算法不能直接用于SSPP问题。应用基于稀疏表示的FR方法也很困难[3], [4]。
已经提出了用于SSPP问题的不同技术来改善FR系统的鲁棒性,例如使用多个面部表示[5],从原始参考静止图像生成合成面[6],[7],并纳入通用辅助集[8],[9]。本文将重点介绍通过基于原始参考静止生成的合成集合或通过从通用集合传输的类内变异信息来扩充参考图库集的方法。用于增加参考图库集的策略的挑战是选择足够数量的合成或通用面以覆盖OD中的类内变化。可以分别生成或收集许多合成面或通用辅助面,以考虑所有可能的捕获条件。在这种情况下,FR系统需要复杂的实现如当训练许多面部图像时,可能会产生较低的准确度,这些图像在OD中提供较少的FR相关信息。
在本文中,提出了一种利用面部合成过程的通用集的判别信息的新方法[10]。称为域特定面部合成(DSFS)的新算法将来自OD中的通用集合的代表性变化信息映射到在参考静止图像中分离的原始面部区域(ROI)。以这种方式,生成一组紧凑的合成面部,其表示在共同捕获条件下的静止参考ROI和探测视频ROI,如图1所示。DSFS技术涉及两个主要步骤:(1)表征来自OD的捕获条件信息,(2)基于在第一步骤中获得的信息生成合成面ROI。在操作之前,从OD中捕获的视频收集一组通用的面部ROI。通过将该通用集聚类在由姿势,照明,模糊和对比度估计度量定义的捕获条件空间中来选择紧凑且代表性的ROI子集。每个参考静止ROI的3D模型通过3D可变形模型重建并基于姿势代表进行渲染。最后,照明代表的依赖于照明的层被提取并以相同的姿势投影在渲染的参考ROI上。以这种方式,特定域的变化被有效地转移到参考静止ROI上。
图1.用于扩充参考图库集的建议DSFS算法的概述
2 相关工作-s2v人脸识别
在文中已经提出了几种技术来改善使用SSPP设计的S2V FR系统的鲁棒性。它们可以分为以下技术:(1)多面部表示,(2)通用学习,以及(3)合成面部的生成,下面给出了这些技术的概述。
2.1 多面部表示
解决FR中SSPP问题的一种有效方法是从面部图像中提取判别特征[11],提出了一种基于多种人脸表示的强大的S2V FR系统。他们将多种外观不变特征提取技术应用于参考静止图像中分离的补丁,以便产生多个面部表示并生成多种示例SVM的池,该池为监视应用中遇到的常见烦扰因素提供了稳健性[12]。通过学习图像块的判别特征,提出了一种判别式多流形分析方法。在这种技术中,考虑每个人的补丁为每个人的每个样本形成一个流形,并通过最大化不同人的流形边缘来学习投影矩阵。在通过若干姿势特定的深度卷积神经网络(CNN)模型处理面部图像以生成多个姿势特定的特征[13]。然而,多面部表示技术仅能够产生补偿小的变化,因此不能有效地解决实际应用中的变化。
2.2通用学习
在FR系统中补偿视觉域转换的早期发现是使用通用集来丰富参考图集的多样性,即所谓的通用学习概念[14],许多研究人员已经广泛讨论了通用学习[15],[16]。苏等人提出了一种针对FR的自适应通用学习方法,该方法利用外部数据估计每个个体的类内散布矩阵,并将该信息应用于参考集。近年来,基于稀疏表示的分类(SRC)与FR的通用学习的集成引起了极大的关注。邓等人将通用倾向添加到SRC框架中并提出扩展SRC(ESRC),其提供来自其他面部数据集的附加信息以构建类内变异字典以表示训练和探测图像之间的变化。随着进一步的研究,邓等人提出了一种通用学习方法,该方法将通用样本数据投影到零空间,以减少自然变异信息的负面影响。杨等人[17]通过考虑参考集和外部通用集之间的关系引入稀疏变异字典学习(SVDL)技术,并通过从通用集和参考集中学习获得投影。在[18]来自OD的类内变化信息通过域自适应与参考集合集成,以增强面部模型。作者[19]提出了一种强大的辅助字典学习(RADL)技术,该技术通过字典学习从通用数据集中提取代表信息。朱等人提出了一个基于局部通用表示的框架(LGR)用于FR与SSPP[20],它通过从图库数据集中提取相邻面片来构建图库字典,而通过使用外部通用训练数据集来构建类内变体字典来预测类内变化。作者[21]提出了一种使用多分类器系统的稳健S2V FR,其中每个分类器仍然由参考面部训练,而不是在视频中捕获的非目标个体的许多低质量面部。在该系统中,从OD中未知人物的视频中收集的辅助集用于选择判别特征集和集合融合函数。在[22], 提出了一种用于S2V FR系统的监督自动编码器网络,以从未知视频ROI生成规范面部表示,其对于在操作视频场景中常见的外观变化是鲁棒的。尽管通用学习报告显着改善,但仍有几个关键问题需要解决 解决。通用的类内变体可能与图库个体的变体不相似,因此可能无法保证从通用集合中提取判别信息。此外,从外部数据收集的大量图像可能包含冗余信息,这可能导致复杂的实现并降低覆盖类内变化的能力。
2.3 合成面部生成
合成增加参考图集是另一种用SSPP补偿FR外观变化的策略。邵等人[23]提出了一种基于SRC的FR算法,该算法使用通过计算一对面部的图像差异而生成的一组合成面来扩展字典。作者[24]通过在摄像机特定的照明条件下生成一组合成面部图像来增强参考图库集,以在监视条件下设计稳健的S2V FR系统。布兰兹和维特[25]提出了3D可变形模型(3DMM)以从单个2D面部图像重建3D面部并相应地合成新的面部图像。作者[26]使用CNN直接从输入图像回归3DMM形状和纹理参数,而没有优化过程,该过程渲染面部并将其与图像进行比较。理查森等人通过引入端到端CNN框架从单个图像呈现面部重建技术,该框架以粗到细的方式导出形状[27]。
3 使用DSFS进行域不变的静态到视频人脸识别
一些研究揭示了S2V FR系统的极限鲁棒性,其中每类训练图像的数量是有限的,并且静止参考和探测视频ROI之间的基础分布不同。在本节中,考虑了特定的S2V FR实现(参见图2)评估使用DSFS合成ROI以解决这些限制的影响。
图2基于域不变的基于SRC的S2V FR系统的框图。
通过DSFS技术生成的合成ROI,并通过结构化SRC方法进行分类。由于每个人的合成ROI(包括合成姿势,照明等)在该字典中形成块,因此SRC被认为是结构化稀疏恢复问题。所提出的具有字典增强的域不变S2V FR的主要步骤总结如下:
(1)生成合成面部ROI
在第一步中, 合成ROI ,使用DSFS 技术设置,其中q是梅格雷的合成ROI数
(2)增强字典
通过DSFS 技术生成的综合ROI数将添加到参考字典中以设计跨域字典,是参考字典,其中是的换算结果。跨域字典 是跨域字典,积分线性模型中的原始合成ROI,其中是添加到类的ROI集合。由于 合成的ROI数被添加到每个类,跨域字典中合成的ROI数量。
在这项工作中呈现的字典设计使SRC能够仅使用一个参考静止ROI执行识别,并使其对视觉域移位具有鲁棒性。
(3)分类
给定探测视频ROI y,一般SRC表示y作为码本 的稀疏线性组合,通过求解-最小化问题得出y的稀疏系数如下:
s.t. (3-1)
由于生成的每个人的合成ROI形成字典的块,因此可以更好地进行分类来自字典中的最小块数,而不是使用所谓的结构化SRC在所有训练数据的字典中查找探测ROI的表示,其目标是找到使用最小值的探测ROI的表示字典中的块数。对于字典与块,,块根据稀疏性制定的 为:
: s.t. (3-2)
其中(.) 是指示符函数,并且是对应于字典块的稀疏系数向量x 中的块。由于每个字典块对应于特定类,因此表示类索引从1 to n。这个优化问题是寻找重建探测ROI的最小数量的非零系数块。
: s.t. (3-3)
然后基于块稀疏重建误差确定探针ROI 的类标签,如下:
label() = (3-4)
为了解决方程的SRC问题,使用经典交替方向法(ADM),ADM是一种具有全局收敛性的高效一阶算法。
为了将ADM应用于问题,我们首先定义一个辅助变量并将其转换为等效问题:
= s.t. , = . (3-5)
它的目标函数可以以 的形式分离,因为它只涉及,因此ADM是适用的。增广的拉格朗日问题:
(3-6)
由以下的线性系统给出:
(3-7)
(4)验证
在实际的FR系统中,重要的是检测然后拒绝异常值无效的探测ROI。我们使用稀疏度集中指数(SCI)标准:
(3-8)
其中k是探针集中的类的总数是系数向量,如果SCIge;tau;则探测ROI被认为是有效的,否则被拒绝为无效,其中tau;isin;(0,1)是阈值。
4 实验
4.1数据库
为了在实际监测条件下验证所提出的S2V FR DSFS,对两个公开可用的数据集进行了大量实验COX-S2V和Chokepoint选择这些数据集是因为它们是观察列表筛选应用程序中最具代表性的。它们包含在受控条件下拍摄的每个受试者的高质量参考图像(使用静态相机),以及在不受控制的条件下(使用监控摄像头)捕获的每个受试者的低质量监控视频。通过分布式摄像机网络捕获视频,其覆盖一系列变化。
COX-S2V数据集包含1000个人,每个模拟视频监控场景有1个高质量静止图像和4个低分辨率视频序列。在每个视频中,个人走过设计的S形路线,其中包括照明,表情,比例,姿势和模糊的变化.Cokepoint数据集由通过门户1行走的25个人和通过门户2行走的29个人(23个男性和6个女性)组成。门户1和门户2的记录相隔一个月。具有3个摄像头的摄像机装置位于门的正上方,用于在四个会话期间同时记录人的进入。总的来说,数据集由54个视频序列和64个,204个面部图像组成。捕获的面部的外观在照明条件,姿势和未对准方面具有变化。
4.2实验方案
使用Chokepoint数据库,随机选择5个人作为观察列表个体,每个人包括一个高质量的正面拍摄图像。在每次实验之前,视频数据分为3部分,ROI是从随机选择的其他10个人的视频序列中提取的作为表示捕获条件的通用集合。剩余个体的视频序列的ROI以及5个已经选择的观察列表个体的视频序列被用于测试。为了获得代表性的结果,使用不同的观察列表和通用集合个体的随机选择重复该过程5次
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[608955],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。