2.1. Deformable part models
Following the original DPMs framework [21], let us define a DPM with n parts as beta; = {F0, P1, hellip;, Pn, b}, where F0 is a coarse-scale global Root-Filter, Pi is a Part-Filter model for the ith part and b is a bias term. Part filters are defined as Pi = {Fi, vi, wi}, where Fi is a fine-scale part filter at twice the resolution of the root filter. The spatial distribution of part filters is defined relative to the root filter by both vi and wi, the anchor and deformation penalty, respectively.
DPM filters are matrices designed to weight the sub-windows of a pyramidal representation of an image. We employ a variant of the HOG features introduced by Dalal and Triggs [20] to represent the facial appearance. These features have shown to be robust for object detection under challenging conditions such as image noise, scale variation and occlusions [25].
Given both a DPM and a HOG feature pyramid of a testing image x, a binary convolution function, Phi;(x, beta;), scans the responses of the model beta; onto the testing image. The score of a filter with respect to a sub-window of a HOG pyramid is the dot product of the weight vec-tor and the features comprising the sub-window. Thus, the scoring function combines the appearance fitness and a penalization of spatial deformation as follows:
where Phi;(x, F0) is the root filter response, delta;i gives the displacement of part filters relative to its anchor and the roots position. In this model, each part is expected to keep a specific relative position respect to the root filter, called the anchor point. The part can move away from its anchor point, but it incurs in a penalization, wi(delta;i), when doing so. This penalization might however be outweighed by the im-proved matching of the part filter. Thus, Phi;(x, Pi, delta;i) minus; wi(delta;i) scores the responses of the part filters under the displacement from the an-chor point, delta;i, and the deformation cost associated with the displace-ment, wi. We model the deformation as a symmetric two-dimensional Gaussian mask superimposed on the target sub-window, with mean location being the anchor point.
A face detection model is implemented as a mixture of DPMs, in which each DPMs component is designed to respond only to a subset of the possible appearances and deformations. In our case each subset corresponds to a distinct range of head poses. Fig. 1 shows a DPM exam-ple that comprises four mixture components representing near-frontal and profile faces, left and right (only the right view components are displayed). Each mixture component has a root filter (Fig. 1.(a)) and six independent part filters, (Fig. 1.(b)), this is known as 4 lowast; (Roots 6Parts) DPM. Fig. 1(top) shows a face detection example of this DPM, where the red bounding boxes correspond to the maximum combined scored, Eq. (1), and blue boxes display the best configuration of the model part filters.
Observe that this DPMs are trained with weakly labelled data, i.e. only the face bounding box is known in opposition to previous works [19,24,23,22]. Consequently, the part filters composing a view-based mixture detector do not correspond to any face part or facial landmark.
2.1.1. DPM training
Training a robust face detector for the “in-the-wild” images requires a large amount of data from a variety of databases. Ideally, we want to learn from both lab-designed and “in-the-wild” databases, but the main challenge is the lack of consensus in the annotations. Therefore, we deal with this issue by adopting a multi-instance learning formula-tion, Latent Support Vector Machines (LSVM). This consists of training an initial face model using a partially labelled dataset, with homoge-neous bounding box annotations. Afterwards, new latent variables are collected in order to extent the primary training set.
Now, let us define a classifier that scores an example image x with the following function:
where Z(x) defines a set of possible latent variables for an example x, scored using the DPM beta; and the scoring function in Eq. (1). In our case, these latent variables are obtained by evaluating all DPM view-based components on the hypothesis x. The detection with maximum score is kept and a binary label is assigned to x upon a minimum detec-tion score threshold. In a similar fashion to training an SVM, we use the LSVM algorithm [21] to train a DPM for face detection while obtaining beta;. To this end, a face DPM is discriminatively trained with labelled exam-ples by minimizing the following loss function via a coordinate descent algorithm:
here,D={(x1,y1),hellip;hellip;(xn,yn)}is the training set and i isin; {minus;1, 1} are the binary class labels. max(0, 1 minus; yi sdot; Sbeta;(xi)) is the standard hinge loss and c is a regularization term.
In general, training an LSVM requires optimizing a non-convex func-tion. Still, there are two strategies to ease the LSVM optimization as proven by Felzenszwalb et al. [21]. First, the training of LSVM is made convex by specifying the latent information for the positive training ex-amples, while the negative training examples remain fixed. Second, Sbeta;(x) is made linear in beta; by collecting only one latent variable for each positive example, |Z(x)| = 1. Bear in mind that at this point we are train-ing linear SVM as a special case of LSVM, using latent variables. Conse-quently, we obtain the perfect scenario to use of-the-shelf optimization algorithms and large training datasets.
2.1.1.1. Root and part filters. DPM combines mixture models able to deal with facial appearance variation due to head po
剩余内容已隐藏,支付完成后下载完整资料
2.1 可变型部件大小:
按照原始的DPM框架,使用n部分为beta;= {F0,P1,...,Pn,b}定义一个DPM,其中F0是粗尺度全局根滤波器,Pi是部件滤波器,第i部分的模型和b是偏差项。部件滤波器定义为Pi = {Fi,vi,wi},其中Fi是根滤波器分辨率的两倍的精细尺寸部件滤波器。部件滤波器的空间分布通过vi和wi两者分别定义为根滤波器,锚点和变形损失。
DPM滤波器是用于对图像金字塔形表示的子窗口进行加权的矩阵。我们使用Dalal和Triggs [20]引入的HOG特征的变体来表示面部外观。这些特征已被证明对于图像噪声,尺度变化和遮挡等挑战性条件下的物体检测是鲁棒的。
给定测试图像x的DPM和HOG特征金字塔,二进制卷积函数Phi;(x,beta;)将模型beta;的响应扫描到测试图像上。相对于HOG金字塔的子窗口的滤波器的分数是权重矢量和包括子窗口的特征的点积。因此,评分功能将外观适应度和空间变形的惩罚结合如下:
(1)
其中Phi;(x,F0)是根滤波器响应,delta;i给出部件滤波器相对于其锚点和根部位置的位移。在这个模型中,每个部分都要保持一个相对于根滤波器的特定的相对位置,称为锚点。这部分可以离开它的锚点,但是在这样做的时候它会受到惩罚。然而,这种惩罚可能会被零件滤波器的改进的匹配所超过。因此,Phi;(x,Pi,delta;i)-wi(delta;i)对从位移点delta;i和与位移wi相关联的变形成本的位移的部分滤波器的响应进行了评分。我们将变形建模为叠加在目标子窗口上的对称二维高斯掩模,平均位置为锚点。
面部检测模型被实现为DPM的混合,其中每个DPM的组件被设计为仅响应可能的外观和变形的子集。在我们的情况下,每个子集对应于头部姿势的不同范围。图1示出了DPM示例,其包括四个混合分量,表示左侧和右侧近前方和轮廓面(仅显示右视图分量)。每个混合物组分具有根滤波器和六个独立的部分滤波器,这被称为4 *(根 6Parts)DPM。图示出了该DPM的面部检测示例,其中红色边界框对应于最大组合刻痕蓝框显示模型零件滤波器的最佳配置。
观察到这个DPM是用弱标签的数据训练的,即只有面对边界框是已知的与以前的作品相反[19,24,23,22]。因此,构成基于视图的混合物检测器的部件滤波器不对应于任何面部部件或面部标记。
2.1.1 DPM训练
为“自然环境下”图像训练强大的面部检测器需要大量来自各种数据库的数据。 理想情况下,我们想从实验室设计和“自然环境”数据库中学习,但主要挑战是注释中缺乏共识。 因此,我们通过采用多实例学习公式,潜在支持向量机(LSVM)来处理这个问题。 这包括使用部分标记的数据集训练初始面部模型,并使用均匀的边界框注释。 之后,收集新的潜在变量以扩大初级训练集。
现在,让我们定义一个分类器,它使用以下函数对一个示例图像x进行分类:
(2)
其中Z(x)定义了一组示例x的可能的潜在变量,在等式(1)使用DPMbeta;进行评分。 在我们的例子中,这些潜在变量是通过评估假设x上的所有基于DPM视图的组件获得的。 保持最大分数的检测,并且在最小检测分数阈值上将二进制标签分配给x。 以训练SVM的类似方式,我们使用LSVM算法[21]训练DPM进行面部检测,同时获得beta;。 为此,通过使用坐标下降算法使以下损失函数最小化,对带有标记检查的面部DPM进行区分性训练:
(3)
这里,D = {(x1,y1),......(xn,yn)}是训练集,iisin;{-1,1}是二进制类标签。 max(0,1-yi·Sbeta;(xi))是标准铰链损耗,c是正则化项。
一般来说,训练LSVM需要优化非凸函数。然而,Felzenszwalb等人证实,有两种策略来缓解LSVM优化。首先,通过指定正面训练样本的潜在信息,对负面训练样本进行固定,对LSVM进行了训练。其次,对于每个正例,Z(x)|只收集一个潜在变量,Sbeta;(x)在beta;中是线性的= 1.请记住,在这一点上,我们正在使用潜在变量来训练线性SVM作为LSVM的一个特殊情况。因此,我们获得了使用现成优化算法和大型训练数据集的完美场景。
2.1.1.1 根部和部件滤波器
DPM组合混合模型能够处理头部姿势和面部表情的面部外观变化。因此,根部滤波器允许区分背面的面部,而可变形部分滤波器可以适应表现面部和头部姿势变化。
通常,面部图像被标记为边界框,这使得能够训练刚性面部检测模型。可以使用更完整的标签,例如朱和拉马南使用的面部标志。然而,这样的细节水平与精细的内部面部结构的定义相结合使得TSM成为次优面部检测器。相反,我们首先训练一个DPM,其中包含从标记数据中学习的基于视图的根滤波器的混合。随后,使用根滤波器的混合物来获取用作新根和部分滤波器的训练集的潜在示例。部分滤波器的初始结构通过应用高斯混合模型(GMM)获得。接下来,LSVM的梯度下降过程允许找到相对于根滤波器的部件的最佳可能位置,使得检测得分是等式的最大值。
之后,找到最佳DPM需要在采集潜在示例和重新训练LSVM之间进行交替,直到在验证集上实现最佳性能测量。
为了训练具有高性能的面部检测器,LSVM依赖于根滤波器的精度来扩展具有新检测面的训练集。这允许逐渐学习根和部分滤波器作为潜在变量。 Felzenszwalb等人将这种数据挖掘策略应用于积极的训练样本,以学习不可变形的对象。然而,面部检测由于头部姿势和面部表情的多样性而呈现出额外的挑战。为了处理这种外观变化和面部变形能力的提高,我们提出将正训练集Dp分解为容易和困难的正面,Dep和Dhp。相似的,负训练集Dn扩展为一组严重的负担,Zhn,从注释的面包围盒外面收集到的积极得分的检测。
最初,使用容易的阳性和阴性实例Dep和Dn分别对粗根滤波器的混合物进行了辨别性的训练。请注意,LSVM的这一步骤被简化为训练基于视图的混合分量的二进制SVM的简单情况。一旦获得所有的根滤波器,评分函数Sbeta;(x)就会根据所有简单的正例进行全局归一化。这是为了使来自不同组件的检测的通配符。
为了逐步学习基于潜在变量的DPM,从容易的阳性获得的根源被用于对训练集Dep进行评分。因此,获得相应的潜在肯定Zep集合。然后,再次应用LSVM,分别基于潜在的容易的积极和负面的例子Zep和Dn区分性地训练新的根滤波器混合物。在这里,LSVM寻求最小化方程式中的目标函数LZepeth;F0THORN;。
如上所述,每个混合物组分由根滤波器和一组部件滤波器组成,其被设计成相应地处理面部外观和面部变形。 因此,在保持先前学习的根滤波器的同时训练零件滤波器。 事实上,根源用于分析简单和难以肯定的例子,以产生一套完整的潜在阳性,Zp =fZepcup;Zhpg。 随后,使用LSVM来区分地学习使用Zp和Dn的零件滤波器。
与学习根滤波器不同的是,部分滤波器的学习是一个受限的优化过程,如下所示:
(4)
此外,潜在零件位置的HOG特征,zpisin;Zp,以根数滤波器分辨率的两倍计算。因此,使用在高得分的潜在阳性实例上计算的更高分辨率特征构建部件滤波器。双重特征分辨率和潜在变量的这种组合使得根滤波器可以捕获粗糙的分辨率边缘,例如面部的边界,而部分滤波器捕获细节,如眼睛,鼻子和嘴巴。
2.1.2数据挖掘和引导
人脸检测器通常用大量负面实例进行训练。对于可行的歧视性培训,最常见的做法是使用所有正数据和硬否定实例。然而,为了避免计算过载,引导方法提出用一个负面例子的初始子集来训练模型,然后收集由初始模型错误分类的广泛的负面例子。然后,建立一个迭代过程,重复提取硬负面,并重新训练模型,直到达到最优停止标准。
受[21]中描述的数据挖掘程序的驱动和开发大量面部图像的必要性,我们结合数据挖掘和自举。我们定义一个边际敏感的聚类程序,将负面和正面的例子都扩展到简单而艰难的潜在实例中。给定正,负标记数据的训练集,D = fDpcup;Dng,我们定义了相对于面DPM,beta;的例子如下:
(5)
可以看出,Zhp和Zhn是正负潜在考试被beta;分类不正确,即SVM边际内的数据。 Zep是正确分类的例子,所以他们以高检测分数落在了边缘之外。 令xpisin;Dp和zpisin;Zp分别是正注释的两个边界框和相应的检测。 如在PASCAL VOC [25]中确定的,我们测量重叠百分比如下:
(6)
初始模型beta;0使用LSVM训练,分别使用注释容易的阳性和阴性,Dep和Dn。随后,如2.1.1节所述,LSVM在缓存一组“良好”训练样本和更新缓存之间迭代交替使用。对于LSVM训练问题,我们确定潜在的正例如zp,检测窗口与xp重叠大于50%。然而,70%的重叠决定了zp实例是属于Zhp还是Zep。这允许以缓慢的学习率在积极的例子中应用数据挖掘,但是具有高度得分的新潜在示例。
像积极的例子一样,还有一套硬底片,Zhn,从Dp收集到的高分检测。因此,如果具有注释xp的重叠低于50%但具有高检测分数,则检测到的窗口被认为是非常负的。 Sbeta;(x)ge;0。
因此,通过使用潜在的硬负面示例Zhn更新高速缓存来执行引导阶段。该后处理过程旨在最大化预测召回和面部检测器的得分函数之间的相关性。此外,数据挖掘和引导程序都有助于改善SVM利润率,同时减少对准确面部检测的高分数检测。
这种整个数据挖掘/引导过程在收敛到在验证集上计算的最佳精确回归之后被重复。
2.2 级联可变形部件
Felzenszwalb等人还提供了星级(SC)算法[26],以加速DPM检测,而不会造成精度损失。与TSM一致[19],具有启动模型结构的DPM已经在级联分类的第一阶段超越了TSM。 DPM的根滤波器的混合是比TSM的小面部部分特征更有效的代理,导致计算成本的大幅度的减少。
为了规避DPM的瓶颈,对Cascade DPM(CDPM)进行了培训,以查找稍后由DPM验证的可能的对象位置。虽然这个过程并不是特定于星型的,但是CDPM由一个能够以低分辨率扫描图像的量身定制的根滤镜组成,而部分滤光片则以高分辨率在由CDPM根滤光片提供的位置上使用。
在我们的模型中,我们定制根滤波器模型和相应的部件以进行分层应用,产生n 2个阶段,其中n是零件滤波器的数量。 SC算法学习一个全局阈值tau;,其用于利用CDPM的根滤波器Sc(F0)ge;tau;来评估最可能的位置。该分数在级联的整个阶段积累。如果具有第一个i部分的Sc(F0)低于阈值tau;i,则不对级联的其余部分评估根位置。这被称为假设修剪。如果变形wi高于阈值tau;i,SC也将跳过位置
最后,SC算法将使用CDPM作为早期假设修剪,作为从背景中突出显示面孔的代理。一旦找到候选位置,我们就会将底层图像特征的实际滤波器卷积与包括根和部分滤波器的面DPM相结合。级联中的这个额外的阶段允许以更快的方式抑制所有但最好的检测。
通过使用PCA-HOG功能对CDPM的根部和部件滤波器的外观进行编码,可以进一步加快速度。这可以获得简化的级联模型,没有显着的信息丢失,如[26]所示。也就是说,CDPM的滤波器投影到固定数量的特征向量上,实现更快的面部检测,同时减少内存需求。在这里,我们的脸CDPMs使用相应的DPM和潜在的正面例子学习的5-PCA-HOG功能的滤波器进行培训。
较低维度的特征可能会提高精确度,因为应用PCA是一致的,但是以回收损失为代价。因此,我们建议通过后优化程序来减轻这种影响,从而提高CDPM的性能,即精确调用。我们使用标签和潜在(简单和硬)的正面例子来构建HOG特征的本征空间。接下来,我们遵循与[26]相同的步骤来计算与CDPM的根滤波器相对应的5-PCA-HOG特征。
3培训细节
在这里,我们详细介绍了VJ-MVFD和我们的DPM-MVFD之间的训练程序。我们使用35,738个公开的面部图像,参见表1.使用在[32]中的跟踪系统给出的3D头部姿态估计,来自视频序列的图像被聚集成不同的视图(头部姿势)。训练组仅包含俯仰角和倾斜角度在plusmn;20°范围内的面。
3.1 MVFD与中提琴和琼斯
作为基线,我们训练了VJ-MVFD,因为[8]中的工作不是公开的。培训使用OpenCV库[33],使用Gentle AdaBoost分类器,直立的Haar特征和一种基于树状的级联结构进行高效搜索[34]。我们训练了近距离,0°,30°,半剖面,(30°,60°)和全轮廓(60°,90°)面的6视图MVFD。训练集35通过翻转图像并应用随机变形,表1中的738张脸部图像被扩展到100 000个正面的例子,我们对VJ-MVFD的训练每个姿势花费大约四周时间,请注意,这个海尔级联训练有几个参数适用于优化阶段,哈尔特征类型,迷你命中率和最大误报率,但性能的主要改进来自姿势特定组件的适当组合。
为了检测脸部,VJ-MVFD并行运行所有姿态特异性检测器。接下来,通过首先使用不相交集数据结构函数[33]来合并检测,以根据其大小和位置对检测到的矩形进行聚类。然后,消除了具有少量矩形的簇。最后,使用非最大抑制功能来合并剩余的检测。检测被评为在视图特定检测器中的类Haar特征的最大响应。
3.2 MVFD与CDPM
我们培训了四种不同的CDPM面部检测器,以根据根部和部件滤波器的数量来评估性能。 使用近前额,[0°,plusmn;30°]和轮廓,(plusmn;30°,plusmn;90°)脸部的图像对4 *(根 6Parts)CDPM进行训练,脸部图像翻转,允许建立 对称视图模型,但不
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138323],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。