英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
用于多视图检测的CASCADE可变模型的实验分析
作者:J.Orozco1, B.Martinez1 and M.Pantic1,2
摘要
在本文中,我们提出了一种基于级联可变形部件模型(CDPM)的面部检测器[1]。我们的模型从使用潜在支持向量机(LSVM)的部分标记的图像中学习。最近朱等人[2]提出了一种用面部标签训练的多视角面部检测的树结构模型,得到了一个复杂而不够完善的面部检测系统。相反,我们采用通过数据挖掘程序增强的CDPM来丰富LSVM的训练模型。此外,我们导出了优化后的过程以改善CDPM的性能。实验结果表明,所提出的模型可以处理高度表达和部分遮挡的面孔,同时在诸如FDDB [3]和AFLW [4]数据库等挑战性基准上大幅度优于最先进的面部检测器。
关键字:多视角人脸检测,级联变形模型,FDDB数据库,AFLW数据库。
1 简介
多视角人脸检测(MVFD)在过去十年中一直是一个具有挑战性的课题[5]。The Violaamp;Jones (V-J)[6]面部检测器已经成为现实世界面部检测应用中的里程碑。它可以提供高达30°偏离和15°俯仰的头部姿态旋转的可靠性能。他们后来提出了一种两阶段的MVFD:首先估计面部姿势,然后评估面部检测器的估计姿势[7]。而后基于V-J框架提出了几项工作。在[8]中,提出了一种使用FloatBoost功能的面部检测器,一个流畅的搜索AdaBoost和一个金字塔结构。该方法可以处理非正面的情况,并且只需要较小的一组特征,而且比V-J更快。然而,这种系统比V-J需要五倍以上的训练时间。真正的AdaBoost在[9]中应用于使用Haar-likes训练基于视图的分类器。这项工作在[10]中得到了扩展,其中Vector Boosted算法和金字塔级联组合明显优于V-J。[11]通过用Haar-likes替换SURF特征获得了很大的性能提升。这项工作显示了迄今为止在FDDB基准数据库[3]上的最佳性能。 SURF特征被用作使用逻辑回归学习弱分类器的描述符。然后通过在一小时内应用用数十亿个样品训练的SURF弱分类器级联来执行面部检测。
最近Zhu 等人提出了一种用于关节面检测,姿态估计和面部标志检测的可变部件模型(DPM)。它是一个树结构模型(TSM),由13个头姿势组成,每个姿势最多68个部分过滤器,对应于面部界标。在约束条件下,该方法表现出比MV-D方法更好的性能。这是由于基于HOG特征和视图相关模型的更好的面部表示,导致了更好的辨别力。然而,这项工作的目的是面部标志性检测,而当只有面部检测目的时是次优的。首先,它需要详尽的面部标志标记,这减少了可以使用的训练数据的量。其次,学习和搜索树结构使得算法对于在实际应用中的面部检测来说太慢。最后,它局限于高分辨率图像,因为部分滤波器依靠局部统计来实现成功检测。
他们认为,DPM的基线框架比TSM更适合于MVFD。这些星型结构模型对不同的基准表现出很强的检测性能。星形模型可以通过使用多尺度DPM的混合物来表示刚性和非刚性面部纹理。通过组合潜在支持向量机(LSVM)和数据挖掘过程来获得性能超群的模型。最后,级联可变部件模型(CDPM)可以在不牺牲检测精度的情况下,加速超过20倍的DPM检测。
在本文中,我们介绍了CDPMs的实证分析,以解决可靠的MVFD问题。首先,我们来描述一个数据挖掘过程,使用LSVM算法从部分标记的数据中逐步学习DPM。其次,我们为CDPMs训练推出了一个后期优化程序,可以显着提高其性能。据此,我们获得了一个在具有挑战性的基准数据集(如FDDB [3]和AFLW [4])上胜过最先进的面部探测器的人脸检测器。
2 CASCADE可变元件模型
2.1 可变形零件模型
具有n个部分的DPM被定义为beta;=(r,c1,...,cn,b),其中r是粗尺度全局根滤波器,ci是第i部分的模型,b是偏置项。 部分滤波器被定义为(fi,vi,di),其中fi是根滤波器分辨率的两倍。零件滤波器的空间分布由vi和di两者分别定义为锚和变形损失。如下图所示:
我们的模型使用LSVM算法从部分标记的数据中训练[12]。面部图像用边界框标记,用于构建根滤波器的特征模型。可以使用更完整的标签,例如Zhu等人使用的面部标志。[2],由于使用次优部分,导致了面部检测的复杂。相反,我们将部分位置视为训练期间的潜在变量,即使用根滤波器自动检测。为了说明这一点,让我们考虑一个模型beta;,得到一个具有以下形式的函数的示例x:
其中Phi;(r)是根滤波器响应,delta;i给出了部分滤波器相对于其锚点和根部位置的位移。因此,Phi;(ci,delta;i)-di(delta;i)对部件滤波器对位移和与位移相关的变形成本的贡献进行了得分计算。
为了训练具有高性能的人脸检测器,LSVM依赖于根滤波器将零件滤波器作为潜在变量来学习。为此,我们建议将积极的训练集Dp分解为容易和困难的Dep和Dhp。因此,LSVM学习使用Dep的粗根过滤器,然后使用Dep来重新计算Dep中的示例,并获得一组潜在值Zep。接下来,LSVM通过使用标记和潜在变量极小值目标函数LDep(r,Zep)来丰富根滤波器。最后,使用类似的数据挖掘过程与负面示例来确保根滤波器具有高精度召回。使用所有正样本Dp,相应的潜变量Zp = {Zepcup;Zhp}和目标函数LDp(beta;,Zp)来学习部分滤波。潜在的部件特征zpisin;Zp以两倍于根滤波器的分辨率计算,并由公式1计算。因此,部件滤波器使用在高得分的潜在正样本实例上计算的更高分辨率特征来构建。因此,根滤波器捕获诸如面部边界之类的粗分辨率边缘,而部分滤波器捕获诸如眼睛,鼻子和嘴巴的细节。
2.2 CDPM训练
给定一个DPM训练的Star-Cascade(SC)算法[1]可以应用于加速检测而不损失精度。为此,对CDPM进行训练,以发现随后由DPM验证的假想对象位置。虽然这个过程并不是星形模型的特征,但CDPM根滤波器是以低分辨率扫描图像的,而部件滤波器则以高分辨率在由CDPM的滤波器提供的位置上使用。 SC算法学习一个全局阈值T,用CDPM的根滤波器Sc(r)ge;T来评估最可能的位置。这些分数在部件滤波器对检测的贡献时在整个级联阶段积累。如果具有第一个i部分的Sc(r)低于阈值tau;i,则不对其余级联的根位置进行评估,这被称为假设修剪。如果变形di低于阈值tau;i,则SC也将跳过位置。最后,SC算法将在早期阶段使用CDPM进行假设修剪,但DPM在后期被用于在最可能的位置重新扫描图像。为了加快检测速度,在[1]中通过使用PCA-HOG功能进行滤波,获得简化的CDPM。这些是投射到第5个特征向量上的HOG特征。在这里,我们提出了一个后期优化程序来提高CDPM的性能:这是从标记和潜在(简单和难易)的例子Dp和Zp计算5-PCA-HOG特征。
3 实验
我们用近似正面,[0°,30°]和(30°,90°)面的图像训练了4-Pose CDPM,脸部图像被构建为对称模型,我们使用了35,738个面部图像。具体来说,我们首先使用第2.1节中所述的LSVM算法学习了一个4姿态DPM,表达图像被用作容易的积分Dep,而AFLW图像被用作Dhp。图像被聚集并使用[14]中的跟踪系统给出的3D头部姿态估计来接近正面和试验样本,训练集只包含俯仰角和俯仰角低于20°的面。
3.1 Violaamp;Jones的MVFD模型
因为[7]中的工作不是公开的,我们训练了VJ-MVFD面部检测器。训练中使用OpenCV库[22],一个温和的AdaBoost分类器,直立的哈尔式特征和一种基于树状的级联结构进行有效搜索[23]。我们训练了一个接近正面([0°,30°]),半画面((30°,60°))和全画幅((60°,90°))面的6姿势MVFD。将表1中的35,738张脸部图像的训练集延伸到100,000张正面例子,方法是拍摄图像并应用随机变形。我们对VJ-MVFD的训练在最终配置下每姿势训练最多为4周,为了检测脸部,VJ -MVFD运行所有姿态特征水平线。接下来,检测首先使用不相交集数据结构函数[22]合并,以根据其大小和位置对检测到的矩形进行聚类。然后,消除了具有最小数量的矩形的簇。最后,使用非极大值抑制来合并剩余的检测。检测被按照姿态特异性检测器中的最大响应来评分。
3.2 FDDB实验
FDDB数据库[3]是现实世界场景中面部检测的最新基准数据集。它在无约束条件下包含2,845张图像和5,171张脸部。根据Jain等[3]提出的评估方案,我们在FDDB上报告性能。图2显示了我们两种方法的离散和连续ROC曲线,即4-Pose CDPM-MVFD和VJ-MVFD。此外,我们比较了它们的性能与TSM方法[2]和FDDB上报告的顶级面部检测器[24],包括用于正面的VJ-OpenCV实现,见图2。从图2可以看出,离散和连续的ROC曲线,我们的4-Pose CDPM-MVFD在FDDB上达到最高的性能。真阳性率(TPR)比任何误报率都高于所有方法。具体来说,我们比较少量假阳性例如200的TPR。在这一点上,4-Pose CDPMMVFD提高了超过60%的TSM,相对于VJ-MVFD获得了45%,而在VJ-MVFD方面达到了13% Li等人[11]的面部检测器,这是迄今为止在FDDB上报告的最佳性能。请注意,4-Pose CDPM-MVFD可以调用FDDB中92.96%的面。相比之下,TSM [2]方法最多可以记录59.16%的面孔。另一方面,6姿势VJ-MVFD可以与VJ-OpenCV一样好,VJ-OpenFV仅使用正面分类器,而不会滤除相邻的检测。
3.3 AFLW实验
AFLW数据库包含21,328张图像中的24,686张面孔,其中包含手动注释的面部特征。可以通过将3D脸部模型确定为所提供的地标来估计3D脸部姿势。 数据库被发布在三个文件夹中,这样测试图像从第一个两个文件夹中获取,并从第三个文件夹中训练图像。图3示出了FDDB和AFLW数据库上的MVFD的检测示例。
AFLW测试集包含14,675张图像和17,166个有标记的面孔。在本实验中,我们将4-Pose CDPM-MVFD的脸部检测结果与VJ-MVFD和TSM面部检测器进行比较。与上一节一样,我们根据离散的ROC曲线比较了10%的最大假阳性率(FPR)的面部检测性能,见图4。其次,我们的4-Pose CDPM-MVFD的性能优于VJ-MVFD和TSM面部检测器,边距分别为57%和15%。
此外,4-Pose CDPM-MVFD可以调用AFLW上的95.08%的脸部,而VJ-MVFD和TSM分别可以召回65.12%和78.01%。AFLW数据库包含具有比FDDB更多的头部姿态和更高分辨率的面部。因此,VJ-MVFD在外观面上检测不足,而TSM可以处理姿态变化和高分辨率。由于低分辨率和遮挡面,FDDB是最具挑战性的基准。因此,TSM在AFLW上表现更好,而VJ-MVFD在FDDB上表现更好。
3.4 检测速度
虽然我们没有针对一个实时的面部检测器,但是我们已经获得了一个与VJ-MVFD的速度相当的MVFD。我们测试了4-Pose CDPM-MVFD,VJ-MVFD和扫描2,845 FDDB图像的TSM,平均分辨率为377x399像素。我们的模型报告平均检测时间为0.46秒,VJ-MVFD的平均时间为0.52秒,TSM的平均时间为26.06秒。此外,当LSVM通过正负样本进行数据挖掘时,这种检测速度也有助于快速的训练过程。 DPM和CDPM的训练大致需要24至48小时。
4 结论
本文介绍了对无约束和具有挑战性的数据库的两种MVFD方法的实证分析。实验表明,CDPMs方法[1]可以有效应用于学习MVFD。我们通过充实的数据区分性地训练LSVM来丰富该模型。此外,我们还培养了具有标记和潜在积极性的CDPM,以提高其性能。实验结果表明,我们的脸部检测
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138325],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。