Visual Object Tracking using Adaptive Correlation Filters

David S. Bolme J. Ross Beveridge Bruce A. Draper Yui Man Lui Computer Science Department

Colorado State University Fort Collins, CO 80521, USA

Abstract

Although not commonly used, correlation filters can track complex objects through rotations, occlusions and other distractions at over 20 times the rate of current state-of- the-art techniques. The oldest and simplest correlation filters use simple templates and generally fail when ap- plied to tracking. More modern approaches such as ASEF and UMACE perform better, but their training needs are poorly suited to tracking. Visual tracking requires robust filters to be trained from a single frame and dynamically adapted as the appearance of the target object changes.

This paper presents a new type of correlation filter, a Minimum Output Sum of Squared Error (MOSSE) filter, which produces stable correlation filters when initialized using a single frame. A tracker based upon MOSSE fil- ters is robust to variations in lighting, scale, pose, and non-rigid deformations while operating at 669 frames per second. Occlusion is detected based upon the peak-to- sidelobe ratio, which enables the tracker to pause and re- sume where it left off when the object reappears.

Note: This paper contains additional figures and con- tent that was excluded from CVPR 2010 to meet length requirements.

Introduction

Visual tracking has many practical applications in video processing. When a target is located in one frame of a video, it is often useful to track that object in subse- quent frames. Every frame in which the target is success- fully tracked provides more information about the identity and the activity of the target. Because tracking is easier than detection, tracking algorithms can use fewer compu- tational resources than running an object detector on every frame.

Visual tracking has received much attention in recent

Figure 1: This figure shows the results of the MOSSE filter based tracker on a challenging video sequence. This tracker has the ability to quickly adapt to scale and rotation changes. It is also capable of detecting tracking failure and recovering from occlusion.

years. A number of robust tracking strategies have been proposed that tolerate changes in target appearance and track targets through complex motions. Recent examples include: Incremental Visual Tracking (IVT) [17], Robust Fragments-based Tracking (FragTrack) [1], Graph Based Discriminative Learning (GBDL) [19], and Multiple In- stance Learning (MILTrack) [2]. Although effective, these techniques are not simple; they often include com- plex appearance models and/or optimization algorithms, and as result struggle to keep up with the 25 to 30 frames per second produced by many modern cameras (See Ta- ble 1).

In this paper we investigate a simpler tracking strategy. The targets appearance is modeled by adaptive correlation filters, and tracking is performed via convolution. Naive

methods for creating filters, such as cropping a template from an image, produce strong peaks for the target but also falsely respond to background. As a result they are not particularly robust to variations in target appearance and fail on challenging tracking problems. Average of Synthetic Exact Filters (ASEF), Unconstrained Minimum Average Correlation Energy (UMACE), and Minimum Output Sum of Squared Error (MOSSE) (introduced in this paper) produce filters that are more robust to appear- ance changes and are better at discriminating between tar- gets and background. As shown in Figure 2, the result is a much stronger peak which translates into less drift and fewer dropped tracks. Traditionally, ASEF and UMACE filters have been trained offline and are used for object de- tection or target identification. In this research, we have modified these techniques to be trained online and in an adaptive manor for visual tracking. The result is tracking with state of the art performance that retains much of the speed and simplicity of the underlying correlation based approach.

Despite the simplicity of the approach, tracking based on modified ASEF, UMACE, or MOSSE filters performs well under changes in rotation, scale, lighting, and par- tial occlusion (See Figure 1). The Peak-to-Sidelobe Ratio (PSR), which measures the strength of a correlation peak, can be used to detect occlusions or tracking failure, to stop the online update, and to reacquire the track if the object reappears with a similar appearance. More gen- erally, these advanced correlation filters achieve perfor- mance consistent with the more complex trackers men- tioned earlier; however, the filter based approach is over 20 times faster and can process 669 frames per second (See Table 1).

Table 1: This table compares the frame rates of the MOSSE tracker to published results for other tracking systems.

Algorithm

Frame Rate CPU

FragTrack[1]

GBDL[19] IVT [17]

MILTrack[2]

MOSSE Filters

realtime Unknown

realtime 3.4 Ghz Pent. 4

7.5fps 2.8Ghz CPU

25 fps Core 2 Quad 669fps 2.4Ghz Core 2 Duo

The rest of this paper is organized as follows. Section 2 reviews related correlation

剩余内容已隐藏，支付完成后下载完整资料

使用自适应相关滤波器的可视化对象跟踪

David S. Bolme J. Ross Beveridge Bruce A. Draper Yui Man Lui

Computer Science Department

Colorado State University

Fort Collins,CO 80521,USA

bolme@cs.colostate.edu

摘要

尽管相关滤波器不常用，但它可以穿过旋

转、遮挡和其他干扰追踪复杂的物体，并且速度超过当前水平的技术的20倍。最古老和最简单的相关滤波器使用简单的模板，并在应用到追踪时失败。更多如ASEF和UMACE的现代方法表现更好，但是他们的训练需求不太适合跟踪。视觉跟踪要求从一个一帧图像中训练出鲁棒滤波器，并根据目标对象的外观变化进行动态调整。

这篇论文提出了一种新型的相关滤波器，即最小输出平方误差（MOSSE）滤波器，该滤波器在使用一帧图像进行初始化时，可以产生稳定的相关滤波器。当存在光照、尺度姿态和非刚性形变等，基于MOSSE滤波器的追踪器是鲁棒性的，并且可以每秒运行669帧。通过峰值-旁瓣比，能够检测出遮挡，此时，追踪器停止追踪。当目标物体再次出现时，追踪器从它上次停止的地方，重新开始追踪。

图1：这张图片显示了一个具有挑战性的视频序列的MOSSE过滤器的跟踪结果。该跟踪器能够快速适应规模和旋转变化。它还能检测跟踪时的故障并从堵塞中恢复。

注：这篇论文包含了额外的数据和不符合要求的数据，

2010年，它被排除在CVPR中以满足长度的要求。

1 介绍

视觉追踪在视频处理中有很多实际的用处。当一个目标物体在视频中的某一帧中被确定时，在接下来的视频帧序列中，追踪此目标往往是比较有意义的。在目标被成功追踪的每一帧中，提供了关于目标的身份和活动的的更多信息。跟踪比检测稍微容易些，因为追踪算法不必运算了目标检测器，因此，追踪所耗费的计算资源更少。

近些年来，视觉追踪备受关注。摘要提出了一种可以通过复杂的运动来适应目标外观变化和跟踪目标的鲁棒性跟踪策略。最近实例：增量视觉跟踪器(IVT) [17]、鲁棒的基于目标分块的跟踪 (FragTrack) [1]、甄别学习(GBDL) [19]、以及多实例学习(MILTrack) [2]。这些技术是有效的，但是技术实现上并不简单；他们通常包括复杂的外观模型和优化算法，并且，实时性也保证不了，适应不了 25帧或者30帧的摄像头。（见表1）

本文提出一种更简单的追踪策略。通过自适应相关滤波器对目标外形进行建模，并通过卷积进行跟踪。创建滤波器有几种简单的方法，比如，从一帧图像中裁剪模板，为目标生成强大的峰值，但是也会对背景产生响应。因此，对于目标外观的变化，跟踪结果不是特别鲁棒，在一些具有挑战性的追踪场景上会失败。ASEF ,UMACE以及本文提出的 MOSSE产生的滤波器，对目标外观的改变更加鲁棒，同时，区分目标和背景的效果也更好。如下图所示，结果是一个更强烈的峰值，它会减少目标的漂移和更少的下降轨迹。传统上，ASEF ,UMACE可以进行离线训练，用于目标检测与目标识别。在本文研究中，我们修改了这些技术，使可以在线训练，获得了良好的跟踪表现。同时，我们保留了原来基本方法的速度，并且简化了其过程。

尽管 ASEF,UMACE,或者 MOSSE都比较简单，但是，它们对于旋转变化、尺度、光照和部分遮挡等，表现良好。衡量相关峰强度的峰值旁瓣比（PSR），可用来检测是否有遮挡或者跟踪失败，一旦有，则停止在线学习，并且如果有类似目标物体的出现，则重新开始追踪。更一般地，这些 advanced 滤波器获得了和之前提到的那些复杂的滤波器一样的效果，比那些方法快 20倍，并且每秒处理 669 帧。（见表1）

Algorithm

Frame Rate CPU

FragTrack[1]

GBDL[19] IVT [17]

MILTrack[2]

MOSSE Filters

realtime Unknown

realtime 3.4 Ghz Pent. 4

7.5fps 2.8Ghz CPU

25 fps Core 2 Quad 669fps 2.4Ghz Core 2 Duo

表1：这张表比较了MOSSE跟踪器的帧速率和其他跟踪系统的发布结果。

本文其余部分组织如下：第二节回顾相关滤波技术。第三节介绍 MOSSE 滤波器，以及如何使用它来创建一个鲁棒的基于滤波器的追踪器。第四部分呈现实验结果。最后，第五部分重新讨论本文主要贡献。

图2：这个图显示了鱼测试序列的第25帧的输入、过滤和相关输出。这三个相关过滤器产生的峰值比单纯过滤器所产生的峰值要小得多。

第5节将重新讨论本文的主要发现。

2 背景

在20世纪八九十年代，相关滤波器有很多变体。比如综合判别函数（SDF）[7, 6]，最小化方差综合判别函数（MVSDF）[9]，最小化平均相关能（MACE）[11]，最优全局滤波器（OTF） [16]，最小化平方差综合判别函数（MSESDF）[10]，这些滤波器的训练依赖目标物体的外观变化和一些硬约束，因此，总是产生相同高度的峰值。其中最好的是产生尖锐峰值和高的 PSRS的 MACE 滤波器。

在文献[12]中发现，基于像MACE那类方法的包含硬约束的 SDF 滤波器，会造成失真容差问题。解决方法就是消除硬约束，而不是使滤波器产生较高的平均相关响应。这种新型的无约束的相关滤波器被称为最大化 MACH，这也使得 MACE 的进化版称为 UMACE。

在文献[3]一种称为 ASEF新的相关滤波器介绍了一种方法，针对特定的任务调整滤波器。之前的方法仅仅指定了一个峰值，而ASEF对每一帧训练图像都明确指定整个的相关输出。 ASEF 在眼部追踪和行人检测上表现良好。遗憾的是，在这两项研究中，ASEF 需要大量的训练样本图像，这使得跟踪速度非常慢。本文引入了一种 ASEF的正则化变体，更适合于视觉追踪，并且不需要那么多的训练样本。

3基于相关滤波器的跟踪

基于追踪的滤波器以物体的外观作为模型。在第一帧中选择一个追踪窗口，来初始化目标。从此时开始，追踪模块和滤波器训练模块同时开始工作。通过将滤波器与下一帧的搜索窗口关联起来，进行目标追踪。与相关输出中的最大值相对应的位置，就是下一帧目标的位置。然后，根据新位置在线更新。

为了创建更快速的追踪器，相关性的计算是通过快速傅里叶变换（FFT），首先，先对输入的图像计算 2D 的傅里叶变换 F = F(f) 和滤波器H = F(h) 。卷积定理指出，在傅里叶域，相关性可以表示成表示成对应元素相乘。我们使用⊙表示成对应元素相乘，^*表示共轭复数。相关性的任务可以被描述成：

G=F⊙H* （1）

利用逆傅里叶变换 FFT，将相关输出转回到时域。这整个过程的难点是计算傅里叶变换和逆傅里叶变换，使时间复杂度不超过 O(p log p)，其中，p 是跟踪窗口的像素数量。

本小节中，我们详细讨论滤波器的组成部分。 3.1小节讨论在追踪窗口上的预处理。3.2小节介绍 MOSSE 滤波器，它是一种改进的方法，可以从少量的图像序列中构建一个稳定的滤波器。 3.3小节展示了如何使用正则化项去产生更稳定的 UMACE 和ASEF 滤波器。 3.4小节简要介绍在线更新滤波器的策略。

3.1 预处理

快速傅里叶变换的一个问题就是，图像和滤波器被映射到一个圆环的拓扑结构上，也就是说，它将图像的左边缘和右边缘相连接，上边缘和下边缘相连接。在卷积过程中，图像的旋转是在超环面中进行的，而不是在空间域。人为的连接图像边缘会影响相关输出。

这种影响可以通过文献3提出的方法进行消除。首先，使用一个 log 函数对像素进行转换，有助于应对低对比度照明。这些像素值被归一化：均值为0，标准差为1 。最后，将图像乘以一个余弦窗，逐渐将图像边缘的像素值减小为0.这还有一个好处就是，将更多的重点放在目标的中心位置。

3.2 MOSSE滤波器

MOSSE 算法可以从较少的训练样本中，产生类似于ASEF的滤波器。首先，它需要一系列训练图像 fi 和训练输出 gi，一般而言，gi 可以取任何形状。在这种情况下，gi 是从 ground truth 中生成的，因此，在训练图像的目标物体上，会产生一个非常紧凑的标准差为 2 的 2D 高斯尖峰。训练是在傅里叶域中进行，是为了利用输入和输出之间的对应关系。和上一小节一样，我们定义了 Fi,Gi,和滤波器 H对应小写字母 f,g 的傅里叶变换。

H_i^*= (2)

其中，除法是对应元素相除。

为了找到一个能将训练输入集合映射到期望的输出集合的滤波器。Mosse 发现了滤波器 H ，通过这种方式：最小化实际输出的卷积和期望输出的卷积之间的差的平方和。最小化问题的公式如下：

| F_i⊙H^*-G_i|²

最小化输出的误差平方和也不是啥新的概念。事实上，对于上面那个公式的优化问题几乎和文献 10 和 11 中提到的方法相同。不同之处在于，那些方法中，在整个训练集上，目标总是处于输入 (fi) 的中心，输出（gi）总是固定的。其中每个（gi）都是定制的，这也是 ASEF 和 MOSSE背后的基本思想。在跟踪问题上，目标不一定始终处于中心位置，在 gi 中的峰值也会随 fi 中的目标移动。更多情况下，gi 可以是任意形状的。例如在文献4中， fi 包含多个目标，gi 有多个响应峰。

图3：结果显示没有正规化。

解决这个优化问题并不是很难，但是需要注意一些东西，因为这个优化的函数是一个复杂多变的实值函数（即值域为实数，不可为负数）。首先，H （下标以w,v来表示。注：计算机里面，数字图像的坐标系为 uwv）中的每个元素，都可以被单独处理，因为在傅里叶域，所有的操作都是对应元素相运算的（比如说对应元素相乘，对应元素相除等）.这就需要重写,然后，当将作为一个独立变量时，关于的一部分要设置为 0。

(4)

而 H* 的求解可以近似表达成下面形式：

（5）

附录 A 有完整的推导。而对于上面的公式（5），有一个有趣的解释。分子是输入和期望输出之间的关系，分母是输入的能谱。

从公式 5 中我们可以看到，UMACE 是 MOSSE 的特殊情况。为了显示MOSSE 能产生比 ASEF 更好的滤波器，我们进行了一个实验：改变图像的数量，用来训练滤波器。通过在视频中的第一帧中，在追踪窗口上应用一个小的仿射变换，来初始化滤波器。在第二帧中使用 PSR 去衡量滤波器的好坏。图 3 显示了 MOSSE 可以利用较少的图像窗口，训练出更好的滤波器。这个原因会在下一节给出。

图4：在该图中，所有三个滤波器在调整正则化参数的同时使用相同的八个图像进行初始化。在Aasymp;0.1时，所有三个滤波器都具有较高的PSR。

3.3 ASEF正规化

在相关性转换时，ASEF 采取了一个稍不同的方法去最小化偏差。当仅仅只有一帧训练图像 Fi 和一个输出图像 Gi ，会产生一个零偏差的滤波器。这个滤波器被称为精确的滤波器，它可以通过求解公式1 获得。

（7）

在一帧图像上训练滤波器，往往会过拟合。当应用于新的一帧图像时，那个滤波器经常就失效了。产生更一般的滤波器的方法，就是求平均值（averaging）。求平均的灵感是来自于文献5中提出的引导聚类：输出的许多弱分类器通过平均，产生一个更强的分类器。通过一些推导， ASEF 的公式可以被描述为：

（8）

如果是只利用一张图像来训练， MOSSE 和 ASEF 都可以产生很精确的滤波器。

当训练样本集的图像个数比较少时， ASEF 是不稳定的。因为当训练图像的频率包含较小的能量（或者分母非常接近 0），公式（8）中对应元素相除就变得不稳定了。大量精确的滤波器进行平均能够弥补这个问题，从而产生鲁棒的滤波器。因为 MOSSE 的分母是很多图像的能量之和，它几乎不会产生较小的数字，所以，是更稳定的。

或者，正则化可以用来校正低能频率，产生更稳定的 ASEF 滤波器，这是在能谱中给每个元素加上一个小的值，也就是，变成了，其中是正则化参数。

正则化的效果和 UMACE 滤波器和OTF 理论相结合的结果是很相似的。这一结果表明，将背景的能谱增加到训练图像中，可以产生抗噪能力更强的滤波器。其实，实际上，我们增加的是白噪声。

图 4 显示了调节的影响，通过正则化，所有的滤波器都将产生较好的峰值，而且足够稳定，能够产生较好的追踪轨迹。

3.4 过滤器初始化和在线更新

公式 8 和公式 5 描述了在初始化过程中滤波器是如何被构造的。训练集是这样被构造的：使用仿射变换在初始帧中生成 8

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[21719]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

使用自适应相关滤波器的可视化对象跟踪外文翻译资料

Abstract

Introduction

您可能感兴趣的文章

登录

Abstract

Introduction

您可能感兴趣的文章