鲁棒的人脸实时检测外文翻译资料-文献翻译网

英语原文共 18 页，剩余内容已隐藏，支付完成后下载完整资料

鲁棒的人脸实时检测

PAUL VIOLA；MICHAEL J. JONES

摘要：本文介绍了一种能够极快地处理图像同时实现高检测率的人脸检测框架。有三个主要贡献。第一个是引进一个新的称为“积分图像”的图像表示，其允许计算由检测器使用的特征很快。第二个是使用AdaBoost学习算法构建的简单有效的分类器（Freund和Schapire，1995）从很大的一组中选择少量的关键视觉特征潜在功能。第三个贡献是在“级联”中组合分类器的方法，它允许背景图像的区域将被快速丢弃，同时花费更多的计算在有希望的脸上区域。提出了一组面部检测领域的实验。该系统产生了面部检测性能与先前的系统相当（Sung and Poggio，1998; Rowleyetal，1998; Schneiderman andKanade，2000; Roth等，2000）。在常规桌面上实现，脸部检测以每帧15帧的速度进行。

关键词：人脸检测；提升；人类感知

1.介绍

本文汇集了构建一个强大而极快的视觉检测框架新的算法和见解。为此，我们已经建成

实现检测的正面检测系统，其假阳性率相当于最好的发表结果（Sung and Poggio，1998;Rowley等，1998; Osuna等，1997a; Schneiderman和Kanade，2000; Roth等，2000）。这个脸部检测系统与以前最明显的区别在于在极端检测脸部的能力方面迅速。操作384times;288像素的图像，面孔以常规方式以每秒15帧的速度被检测。在其他面部检测系统，辅助信息，如图像差异在视频序列中，或彩色图像中的像素颜色，已经被用来实现高帧速率。

我们的系统实现高帧率工作，这些信息存在于单个灰度图像中。这些替代的信息来源也可以被与我们的系统整合以实现更高的帧率。我们的脸部检测有三个主要贡献框架。我们将在下面简要介绍一下它们。

本文的第一个贡献是非常快速的功能评估一个整体图像。工作起点是Papageorgiou等人的作品（1998）（的结论）：我们的检测系统不能直接与图像强度一起工作。就像这些作者我们使用了一组让人想起Haar的功能（尽管我们还将使用比Haar更复杂的相关过滤器）。为了在许多尺度上非常快速地计算出这些特征，我们引入了图像的积分图像表示（积分图像与用于纹理映射的计算机图形中使用的总和区域表（Crow，1984）非常相似）。可以使用几个操作像素从图像中计算积分图像。一旦计算，这些Haar特征中的任何一个可以在任何比例或位置在恒定时间计算。

本文的第二个贡献是一个简单有效的分类器，它是通过使用AdaBoost（Freund和Schapire，1995）从一个巨大的潜在特征库中选择一小部分重要特征而构建的。在任何图像子窗口中，Haar样特征的总数量非常大，像素数量远大。为了确保快速的分类，学习过程必须排除大部分可用的特征，并集中在一小部分关键特征上。由于Tieuand Viola（2000）的工作，通过使用AdaBoost学习算法实现特征选择，通过约束每个弱分类器仅依赖于单个特征。作为选择新的弱分类器的增强过程的每个阶段，可以被视为特征选择过程。 AdaBoost提供了一个有效的学习算法和泛化性能的强界（Schapire等，1998）。

本文的第三个主要贡献是在级联结构中连续地组合更复杂的分类器的方法，通过将注意力集中在图像的前景区域上，显着提高了检测器的速度。注意方法背后的观念是，通常可以通过torapidly确定图像中可能出现的图像（Tsotsos等人，1995; Itti等人，1998; Amit和Geman，1999; Fleuret和Geman，2001）。更复杂的处理仅用于这些有希望的地区。这种方法的关键措施是注意过程的“假阴性”率。必须注意的是，所有或几乎所有的面部实例都被注意过滤器所选择。我们将描述一个训练一个非常简单有效的分类器的过程，该分类器可以被用作“受监督”的关注操作者的焦点.1面部检测功能的操作员可以将被学习，它将过滤出超过50％的图像，同时保留99％的面（通过大型数据集进行评估）。这个过滤器是非常有效的;它可以在每个位置/比例（大约60个微处理器指令）的20个操作中进行评估。

未被初始分类器拒绝的那些子窗口由一系列分类器处理，每个子窗口比最后一个稍微复杂一些。如果任何分类器拒绝子窗口，则不执行进一步的处理。级联检测过程的结构基本上是退化决策树的结构，因此与Fleuret和Geman（2001）和Amit和Geman（1999）的工作有关。

完整的脸部检测级联有38个分类器，总共超过8万次。级联结构无法达到极快的平均水平的检测次数。在一个困难的数据集中，包含507个面和7500万个子窗口，使用平均270个微处理器指令器子窗口来检测面。相比之下，该系统比Rowley等人构建的检测系统的实现速度快了约15倍。（1998）.极快的面部检测仪具有广泛的实用性。这些包括用户界面，成像数据库和电话会议。这种增加的灵感将使他们以前不可行的系统的实时面部检测应用程序。对于不需要快速帧速率的应用，我们的系统将允许进行大量额外的后处理和分析。此外，我们的系统可以在各种小型低功耗设备（包括手持式和嵌入式处理器）上实现。在我们的实验室中，我们实现了这种面部探测器，功率为200 mips强臂处理器，缺乏点阵硬件，已经实现了检测每秒2帧。

1.1 概观

本文的其余部分将讨论检测器的实施，相关理论和实验。第2节将详细介绍功能的形式以及快速计算功能的新方案。第3节将讨论组合这些特征以形成分类器的方法。使用的机器学习方法，AdaBoost的应用，也作为特征选择机制。虽然，以这种方式构建的对象具有良好的计算和分类性能，对于实时分类器来说它们太慢了。第4节将描述一种用于构建级联分类器的方法，鲁棒实时人脸检测139一起产生极其可靠和高效的面部检测器。第5节将介绍一些实验结果，其中包括我们实验方法的详细描述。最后，第6节介绍了该系统及其与相关系统的关系的讨论。

2.特征

我们的脸部检测程序根据简单特征的值对图像进行分类。使用功能而不是直接使用像素有很多原因。最常见的原因是特征可以用于编码使用有限数量的训练数据难以学习的特定领域知识。对于该系统，还有第二个关键原因：基于特征的系统比基于像素的系统运行得快得多。所使用的简单特征让人想起Papageorgiou等人使用的Haar基函数（1998）。更具体地说，我们使用三种特征。双矩形特征的值是两个矩形区域之间的像素之和的差值。这些区域具有相同的尺寸和形状，并且水平或垂直相邻（参见图1）。三角矩形特征计算从中心矩形中的和减去的两个外部矩形内的和。最后，用四矩形特征计算矩形对角线对之间的差异。

图1：相对于封闭检测窗口显示的示例矩形功能。位于白色矩形内的像素的总和从灰色矩形中的像素总和中减去。（A）和（B）中显示了两个矩形的特征。图（C）示出了三矩形特征，（D）是四矩形特征。

鉴于检测器的基本分辨率为24times;24，矩形特征的穷举集相当大，为16万。请注意，与Haar基础不同，矩形功能集不完整。

2.1积分图像

矩形特征可以非常快速地使用图像的中间表示来计算积分图像。位置x，y处的积分图像包含x，y的上方和左边的像素之和，包括：

其中ii（x，y）是积分图像，i（x，y）是原始图像（见图2）。

（其中s（x，y）是累积行和，s（x，-1）= 0和ii（-1，y）= 0）可以在原始图像的一次通过中计算积分图像。

图2点（x，y）处的积分图像的值是上方和左边的所有像素的总和。

使用积分图像，可以在四个数组参考中计算任何矩形和（见图3）。显然，两个矩形和之间的差可以在八个参考中计算。由于上面定义的双矩形特征涉及相邻的矩形和，它可以在六个阵列引用中计算，在三矩形特征的情况下为八个，四矩形特征为九个。

图3矩形D中的像素的总和可以用四个数组引用来计算。位置1处的积分图像的值是矩形A中的像素的总和。位置2处的值是A B，在位置3处是A C，并且在位置4处是A B C D。 D内的和可以计算为4 1 - （2 3）。

Simard等人（1999）的“boxlets”工作，一个替代的动机是整体形象。作者指出，在线性运算（例如f·g）的情况下，如果将其反相应用于结果，则可以对f或g应用任何可逆线性运算。例如在卷积的情况下，如果将导数运算符应用于图像和内核，则必须将结果双重整合：

作者继续表明，如果f和g的衍生物稀疏（或者可以这样做），则卷积可以显着加速。类似的见解是，如果将其反向应用于g，则可以将可逆线性运算应用于f：

在这个框架中看，矩形和的计算可以表示为点积i·r，其中i是图像，r是合成图像（感兴趣的矩形内的值1和外部的0）。可以重写此操作：

整体图像实际上是图像的双重积分（首先沿着行，然后沿列）。矩形的二阶导数（首先在行中，然后在列中）在矩形的角上产生四个delta函数。通过四个阵列访问来完成第二个点积的评估。

2.2特征讨论

与诸如可转向过滤器的替代品相比，矩形特征有些原始（Freeman和Adelson，1991; Greenspan等人，1994）。可转向过滤器及其亲属，非常适用于边界，图像压缩和纹理分析的详细分析。虽然矩形特征对边缘，条形和其他简单图像结构的存在也很敏感，但它们相当粗糙。与可转向过滤器不同，可用的唯一方向是垂直，水平和对角线。由于正交性并不是这个特征集的核心，我们选择生成一个非常大且多样化的矩形特征集合。通常情况下，这种表示是大约400倍的不完整。这个不完整的设置提供任意宽高比和精细采样位置的特征。在经验上，似乎矩形特征的集合提供了丰富的图像表示，支持有效的学习。矩形特征的极大计算效率为它们的局限性提供了充分的补偿。

为了了解整体图像技术的计算优势，考虑一种更传统的方法，其中计算一个金字塔的图像。像大多数面部检测系统一样，我们的检测器以很多尺度扫描输入; 从以24times;24像素的尺寸检测到面部的基准刻度开始，以12times;102像素扫描384times;288像素的图像，每一个比最后一个大1.25倍。常规的方法是计算12个图像的金字塔，每个都是先前图像的1.25倍。然后在这些图像中的每一个上扫描固定尺度检测器。金字塔的计算虽然直截了当，却需要大量的时间。在传统硬件上有效实施（使用双线性插值来缩放金字塔的每个级别），计算一个十二级金字塔大概需要大约0.05秒

相比之下，我们定义了一组有意义的矩形特征，它们具有在几个操作中可以在任何比例和位置评估单个特征的属性。我们将在第4节中显示，有效的面部探测器可以构造成几乎没有两个矩形的特征。给定这些特征的计算效率，可以以15帧/秒的速度在每个尺度的整个图像上完成面部检测处理，大约与单独评估12级图像金字塔所需的时间相同。需要这种金字塔的任何程序必然比我们的检测器运行得慢。

3.学习分类函数

给定一个特征集和一组正负图像的训练集，可以使用任何数量的机器学习方法来学习分类函数。高斯模型的SungandPoggiouseamixture（Sung和Poggio，1998）。 Rowley等人（1998）使用一小组简单的图像特征和神经网络。 Osuna等人（1997b）使用支持向量机。最近Roth等人（2000）提出了新的和不寻常的图像表示，并且使用了Winnow学习过程。

回想一下，每个图像子窗口有16万个矩形特征，其数量远大于像素数。即使可以非常有效地计算每个特征，计算完整集也是非常昂贵的。我们的假设是通过实验证实的，这些特征的很少数量可以结合成一个有效的分类器。

在我们的系统中，AdaBoost的一个变体用于选择特征并训练分类器（Freund andSchapire，1995）.Initoriginalform，AdaBoost学习算法用于提高简单学习算法的分类性能（例如，可能会影响到对感受器的性能）。通过组合弱化分类功能，形成更强的分类器。在语言学中，简单的学习算法被称为弱学习者。因此，例如，感知器学习算法可以切换到不可能的感知器，并返回具有最低分类误差的感知器。学习者被称为弱者，因为wedonotexpectevent最好的分类功能能够很好地对训练数据进行分类（对于给定的问题，最佳感知器只能正确地对训练数据进行正确分类51％的时间）。为了提高学习难度，要求提高学习难度。在第一学习之后，这些例子被重新加权，以便强调那些由前一个分类器不正确地分类的例子。感知器的最大分类法，一个加权组合的微分类器，然后是一个阈值。

AdaBoost学习程序提供的正式保证是相当强大的。 Freund和Schapire证明，强分类器的训练误差在轮次数中呈指数级递减。更重要的是，一些结果后来证明了泛化性能（Schapire等，1997）。关键的见解是，泛化性能与实例的裕度有关，AdaBoost快速实现了大幅度的利润。常规的AdaBoost过程可以很容易地被解释为一个贪心的特征选择过程。考虑到一般的问题，其中一个大的分类功能组合使用加权的多数.vallengeistoassiate一个大的权重与每个良好的分类功能和较小的权重，功能差。 AdaBoost是一个积极的机制，用于选择一小部分良好的分类功能，但具有重大的变化。对于弱分类和特征之间的比较，AdaBoost是一个有效的方法，用于搜索少数具有重要意义的“特征”。完成这种方法的方法是将弱学习者限制在一组分类函数中，每个分类函数都取决于单个特征。为了支持这个目标，弱学习算法被设计为选择最好分离正，负例子的单矩形特征（这与图像数据库检索领域的Tieu和Viola（2000）的方法相似）。对于每一个特征，都可以确定最佳的优化分类功能，使得最小数量的例子被错误分类。弱分类器（h（x，f，p，theta;）

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[25537]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

鲁棒的人脸实时检测外文翻译资料

您可能感兴趣的文章

登录

您可能感兴趣的文章