基于特征提取的技术研究外文翻译资料

 2022-08-12 17:01:29

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


基于特征提取的技术研究

摘要

图像拼接(Mosaicing)是计算机视觉和计算机图形学中一个非常活跃的研究领域。图像拼接是将同一场景的两幅或多幅图像合并成一幅高分辨率的图像,即全景图像。图像拼接技术可分为两大类:直接拼接技术和基于特征的拼接技术。直接拼接技术是将图像的所有像素强度进行比较,而基于特征提取的拼接技术旨在通过从处理后的图像中提取不同的特征来确定图像之间的关系。后者的优点是对场景移动的鲁棒性更强,速度更快,并且能够自动发现无序图像集之间的重叠关系。本文对基于特征的图像拼接技术进行了阐述。介绍了图像拼接的主要组成部分。介绍了一种基于特征的完整图像拼接系统的框架。文章最后,讨论了当前图像拼接技术面临的一些挑战。

关键词:图像拼接;全景图像;基于特征的检测;SIFT;SURF;图像混合

1 介绍

图像拼接是指将相互之间存在重叠部分的多幅图像融合形成一幅全景图或高分辨率的新图像的过程。大多数常见的图像拼接方法需要图像之间精确重叠且具有相同的曝光,以产生无缝的拼接结果。除了在计算机视觉和计算机图形应用中使用图像拼接外,还有一些数码相机可以在内部对照片进行拼接。

另一方面,人类视觉系统的视场约为135 x 200度,而一台普通相机的视场仅为35 x 50度。因此,全景图像拼接是通过从普通相机中获取大量的图像,并将它们拼接在一起,形成一个具有更大视场[2]的合成图像。图像拼接的质量是通过拼接后的图像与每个输入图像的相似度来衡量的。它也可以通过拼接图像之间接缝的可见性来测量。

图像拼接在实时处理中的应用一直是图像处理领域的研究热点。它在视频会议、视频匹配、视频稳定、三维图像重建、视频摘要、视频压缩、卫星成像等领域有着广泛的应用。图像拼接的一个有趣的应用是能够精减用平移摄像机拍摄的视频。

在视频领域,图像拼接的应用被扩展到更多方面,如视频压缩和视频索引。虽然这些早期的方法使用了仿射运动模型,但它们因此被限制在长焦距上。视频拼接在很多方面都是多图像拼接的直接推广。大量独立运动的潜在存在、摄像机缩放以及可视化动态事件给图像拼接[3]带来了额外的挑战。

也可以用视频来创建全景动画。其中,全景的不同部分通过独立移动的视频循环进行动画处理,或者将“视频手电筒”照射到场景的合成马赛克上。视频还可以提供一个有趣的内容来源,用于创建从移动摄像机上拍摄的全景。

医学图像拼接技术在临床诊断中有着广泛的应用,如心脏、视网膜、盆腔、肾脏、腹部、肝脏、组织等疾病的诊断。计算机科学的进步已经导致可靠和有效的图像处理方法在医学诊断、治疗计划和医学研究中非常有用。在临床诊断中,通常需要整合从不同图像中获得的有用数据。

为了更好地观察,这些图像需要几何对齐。将一个图像中的点映射到另一个图像中相应的点的过程称为图像配准[38]。参考图像之间可能不同,因为它们是在不同的时间拍摄的。我们可以使用不同的设备,可以从不同的角度捕捉图像,以获得二维或三维视角[4]。

全景图像拼接的另一个重要应用是Arth等人提出的定位系统[5]。他们提出了一种可以在当前移动设备上工作的高精度实时户外定位系统。他们的方法最重要的特点是它的精确度高和计算要求低,使它适合在现有的移动电话上运行。他们设法克服了目前移动设备上相机的窄视场(FOV)问题,采用了一种图像捕获技术。它们的使用方法非常简单,用户只需将环境捕获为视觉上令人愉悦的全景快照就可以了。

图像拼接应用还包括视频摘要。大量的摄像机24小时不停地录制视频,产生了巨大的容量。处理这些巨大的视频块需要大量的资源,如时间,人力,和硬件存储等。视频摘要在这方面起着重要的作用。它有助于有效地存储、快速浏览和检索大量的视频数据,而不会丢失重要的方面[6]。

论文的其余部分如下展开。第二部分概述了图像拼接的主要组成部分。第三部分介绍了图像拼接的一般方法。第四部分讨论了一个完整的图像拼接模型。第五部分概述了当前在图像拼接领域的工作。在第六部分中,将讨论图像拼接面临的一些挑战。最后,第七部分是结论和展望。

2 图像拼接的主要组成部分

图像拼接分为三个主要部分:图像校对、图像配准与图像合成,如图2.1所示。相机标定的目的是对相机的外部参数和内部参数进行估计。在图像配准过程中,对多幅图像进行比较,找出可用于图像配准的平移量。注册后,这些图像被合并(混合)在一起,形成一个单一的图像。在下面的小节中,将简要讨论这些主要组件。

校正

配准

混合

图2.1 图像拼接的主要组成部分

2.1 校正

图像校正的目的是尽量减少理想的镜头模型和使用的相机组合镜头之间的差异。这些差异是由于光学缺陷,如失真和曝光导致的。通过恢复摄像机的固有参数和非固有参数,利用图像点的像素坐标重建场景的三维结构。外部摄像机参数定义了摄像机参考帧相对于已知环境参考帧的位置和方向。相机固有参数将一个图像点的像素坐标与相机参考帧[9]中相应的坐标联系起来。

2.2 配准

图像配准是拼接过程的核心。它的目的是创建图像之间的几何对应。因此,我们可以很好地比较不同的图像并应用于其他步骤中[20]。图像配准是指从不同角度对两个或多个图像进行配准的过程。图像混合处理使从一个图像到另一个图像的过渡更平滑。因此,可以消除两个图像之间的接缝。

2.3 混合

混合应用于整个拼接过程,使达到无缝拼接的效果。目前有两种流行的混合图像[10]方法。一种叫做alpha“羽化”混合,对两张图片进行加权平均。alpha混合在图像之间对齐良好且唯一的区别是整体强度的变化的情况下效果最好。另一种流行的方法是高斯金字塔[20]。该方法本质上是将不同频段的图像进行融合,并进行相应的滤波。频带越低,边界越模糊。高斯金字塔的方法使边界模糊,但保证了其余部分的像素。

3 图像拼接方法

直接拼接技术和基于特征的拼接技术都是图像拼接的主要方法。它们的工作原理是使像素之间的差异最小化。其中,基于特征的拼接技术是通过提取一组稀疏的特征点,然后将这些特征点相互匹配来工作[11]。

3.1直接拼接技术

直接拼接技术通过比较图像的像素强度来工作。直接拼接技术既能够使重叠像素之间的绝对差异最小化,也可使用其他可用的成本函数。这些方法在计算上很复杂,因为它们需要将每个像素窗口与其他窗口进行比较。它们对图像的缩放和旋转不是固定不变的。利用傅里叶分析技术等直接方法来解决图像拼接问题的技术还有很多,simon baker也提出了一个统一的框架来实现成本或目标函数的精细优化[12]

直接法的主要优点是可以充分利用图像校准的信息,测量图像中每个像素。然而,直接技术的最大缺点是它的收敛范围有限。

3.2基于特征的技术

要找到一对图像中所有对应的特征点,最简单的方法是使用一个局部描述符号将一个图像中的所有特征点与另一图像中的特征点进行比较。但是,预期的特性数量很多,这对于某些应用程序[11]来说是不切实际的。对于基于特征的图像拼接技术,特征提取、配准和混合是进行图像拼接所需要的步骤。

基于特征的方法首先建立点、线、边、角或其他几何实体之间的对应关系。鲁棒检测器的特征包括对图像噪声的不变性、尺度不变性、平移不变性和旋转变换。有许多特征检测技术,如Harris[18]、SIFT[13]、SURF[14]、FAST[15]、PCA-SIFT[16]和ORB[19]技术。

众所周知的SIFT(Scale-Invariant Feature Transform)[13]技术具有很强的鲁棒性,但计算时间不适合实时应用。Harris角点检测器[18]用于检测特征。它使用强度值的标准化互相关来匹配它们。Harris角点对尺度变化和互相关不具有不变性。然而,SURF(加速鲁棒特征)[14]通过使用积分图像对图像进行快速的局部梯度计算来改进SIFT的计算时间。近年来,二值特征描述子受到了越来越多的关注。

这些描述符是用二进制字符串来描述的,比如ORB[19]技术,它的流行程度仅次于SIFT和SURF。

它的运算速度非常快,并且在性能精度上也不错。ORB具有尺度和旋转不变性,对噪声和仿射变换具有鲁棒性。ORB算法实际上是快速(来自加速段测试的特征)关键点检测和简单(二进制鲁棒独立基本特征)关键点描述符算法的组合,该算法被修改为处理定向关键点。

基于特征的方法具有对运动场景鲁棒性更好的优点。它们可能更快,并且能够通过自动发现无序图像集之间的邻接(重叠)关系来识别全景图。这些特性使它非常适合于用户拍摄图片的自动拼接[3]。

4 基于特征的图像拼接模型

在这一部分中,我们将讨论一个完整的基于特征的图像拼接模型。如图4.1所示,图像拼接模型包括五个阶段:图像采集、特征检测与匹配、RANSAC估计、全局对准和图像融合。在下面的小节中,将详细描述基于特征的图像拼接的主要阶段。

图像采集

特征检测与匹配

图像匹配RANSAC转换估计

全局对齐

混合与合成

输出全景

图4.1 基于特征的全景图像拼接通用方法框图

4.1图像采集

任何视觉系统的第一阶段都是图像采集阶段。图像采集可以被广泛地定义为从某些来源检索图像的行为。通常,可以通过三种不同的方法获取用于全景成像的图像,如图3所示。即平移与场景平行的摄像机,通过固定光学中心或手持摄像机围绕其垂直轴旋转摄像机[20]。

图4.2 不同的图像采集方法[21]

4.2特征检测与匹配

图像拼接的第二步是特征检测,特征检测是图像拼接的主要环节。特征可以定义为要匹配的两个或多个输入图像中的元素。它依赖于这样一种观点,即不必把图像作为一个整体来看待,而是可以有利于在图像中选择一些特殊的点,并对这些点进行局部分析。

特征检测是许多计算机视觉算法的重要组成部分。在线图像处理算法需要实时性。因此,在许多应用中,检测特征的速度是至关重要的,例如视觉SLAM(同步定位和映射)、图像配准[4]、三维重建和视频稳定,这些都需要在多个视图之间匹配相应的图像特征。为了可靠地计算多个视图之间的对应关系,需要对检测到的角点或特征点进行明确的描述。实时处理要求特征检测、描述和匹配速度尽可能快。

角是很好的匹配特征,是为了给图像对提供更好的特征匹配,能够对角进行匹配,进行定量测量。角点特征在视点变化时更加稳定。角的另一个最重要的特征是,如果图像中有一个角,那么它的邻域会出现强度的突变。

另一方面,局部特征描述符通过局部内容描述图像中的像素(或位置)。他们是可以经受住小变形或定位误差的考验,并使我们有可能找到相应的像素位置的图像中,捕捉相同数量的信息空间强度模式在不同的条件下[24]。并使我们能够找到在不同条件下获取相同空间强度模式信息的图像中相应像素的位置。

局部特征检测器有许多要求,比如它应该不受平移、旋转、比例、仿射变换、噪声和模糊的影响。它必须能经受住遮挡,杂波,和照明变化的考验。它也应该是可重复的。最后,应该有足够的点来表示具有时间效率的图像。

特征描述符有很多,如SIFT[22]、SURF[14]、HOG[17]、GLOH[23]、ca -SIFT[16]、锥体HOG (PHOG)和视觉单词的锥体直方图(PHOW)。

在下面的小节中,我们将简要介绍提供比例和旋转不变属性的SIFT、SURF和ORB描述符。

4.2.1尺度不变特征变换(SIFT)技术

SIFT技术是目前应用最广泛的一种基于局部特征的图像匹配算法。它保证了良好的拼接图像和可靠的拼接结果。SIFT是一种特征检测与描述技术。SIFT产生描述图像特征的关键点描述符[22]。

SIFT技术有四个提取关键点的计算步骤:标度空间峰值选择、关键点定位、方向分配和定义关键点描述符。

对每一幅图像,通过生成逐步模糊的图像来建立图像金字塔,并减去相邻图像得到高斯(DOG)金字塔的差值。然后,它检测狗金字塔的极端。为了提高效率和技术的鲁棒性,减少了关键点的数量。如果它们的对比度很低,或者它们位于边缘,那么它们将被拒绝。接下来的步骤是方向分配,利用方向直方图对梯度方向进行统计,并对关键点的中心邻域进行采样。最后一步是描述关键点。

图4.3 SIFT描述符生成[2]。

关键点描述符首先通过计算关键点位置周围区域内每个图像样本点的梯度大小和方向来创建,如图4所示。它们由一个高斯窗口加权,该窗口由重叠的圆表示。然后将这些样本累积成方向直方图,汇总出4x4次区域的含量。每个箭头的长度对应于该区域内该方向附近梯度大小之和。

SIFT技术存在一些缺点。首先,它是基于直方图来表达各个尺度和特征方向的梯度变化。第二,其时间复杂度是非常大的。[35]

4.2.2加速健壮特征(SURF)技术

SURF是由Bay[14]开发的一种用于局部、相似不变量的表示和比较的快速而健壮的算法。SURF方法可以分为三个主要步骤。首先,在图像中不同的位置(如角落、斑点和t型交叉点)选择关键点。然后,用特征向量表示每个关键点的邻域。这个描述符必须是独特的。同时,它应该对噪声、检测误差、几何和光度变形具有鲁棒性。最后,在不同的图像之间匹配描述符向量。关键字是发现使用所谓的快速海森探测器是基于近似海森矩阵的一个给定的图像点。在关键点描述符形成之前,利用哈尔小波对关键点的响应进行方向分配。因此,SURF在检测到的关键点周围构造一个圆形区域。

SURF方法的主要优势在于其快速的计算能力,使跟踪和目标识别等实时应用成为可能。该方法从检测点的质量出发,加快了SIFT的检测速度。它更注重加快匹配步骤。使用黑森矩阵和低维描述符显著提高匹配速度[24],但在处理视点和光照变化方面表现较差。

4.2.3加速

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[236542],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。