基于图论的视觉显著度外文翻译资料

 2022-07-26 16:07:02

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于图论的视觉显著度

摘要

本文提出一种新的自底向上的视觉显著度模型-基于图论的视觉显著度。它由两步组成:首先在图像特定的通道上生成激励图,然后用一种能突出显著性并且允许多幅图像融合的方式对其进行归一化。模型很简单,而且在生物学角度上是可靠的,这基于模型是自然并行的。这个模型从108幅图的749种变换中有力地预测了人的注意力范围,实现预测了人类视觉注意范围的98%,而传统算法只能预测到84%。

1简介:

大多数脊椎动物,包括人类,都能转动他们的眼睛。他们用这种能力细致地提取一幅场景中最相关的特征,但在场景其他地方仅仅做一些有限的处理。在给定一幅图像或者视频的情况下,这种预测人类在一个固定的时间自由视点的情景中可能将注意力集中在哪里的能力一直是视觉处理团体的兴趣所在。除了仅仅将理解人类以及动物的这种能持续将注意力放在重要信息物体上的不寻常的能力作为一种科学目标之外,这还有更多的工程应用意义,比如在压缩以及识别中。标准的方法是基于生物学刺激特征进行选择,然后进行“center-surround”操作,这能突出局部的梯度,最后对所得图像进行融合得到一个“master-map”。最近,BRUCE和其他人认定一些基础量比如“自信息”,“惊讶”是视觉注意力/显著度的核心。然而,最后BRUCE得出特征图的附属函数,其主要的贡献为具体化一种在特征图上的操作,以此得到一个激励图,或者显著图。Itti和Baldi定义了“surprise”,但是最后计算显著图的时候用了传统意义上的每一个特征通道,,然后用一种能凸显出局部差异的函数在这些图上操作。通过组织这些不同的方法的结构,我们可以更加严格地比较这些方法,比如不仅从端到端来比较,也可以分段比较,删除一些不确定性观测性能的起源的差异。

所以,为首的几个模型可以被总结为以下三部:

1 提取:在图像的局部区域提取特征向量

2 激励:用特征向量生成一个激励图

3 归一化/融合:归一化激励图(或者是归一化融合后的总图)

在这个观点下,文献5对第二部做了贡献,文献4对第三步做了贡献。在传统算法中第一步采用生物学启发的滤波器,步骤2通过不同规模的特征图相减得到,步骤3通过以下三种方式实现:1一个局部最大值的归一化图,2一个基于差分高斯滤波器卷积的交互图,3一种非线性交互的方法,根据一种适合心里物理学数据的模型根据对周边平均值加权的方式来对局部特征值分层。

我们用一种不同的方法,采用计算的力量,拓扑结构,以及图形算法的并行的自然特性去实现一种自然的有效的显著度计算方法。我们在不同的图像上定义马尔科夫图,然后再图的局部区域上将平衡分布处理为激励或者是显著度的值。这个想法不是全新的:Brockman和Geisel提出说人眼的扫描路径可以被预测,只要在显著区域合适地定义“Levy flight”,最近Boccignone 和 Ferraro做了同样的实验。更重要的是他们假定显著图很早就存在了,并提供了一个可选择的“胜者为王”的方式去将物体映射为一系列的视觉注意区域。在一个未出版的预印刷版本上L.G.costa提出了相似的观点。,但是仅仅提出了将此应用到真是图像的大致的轮廓,而且并没有给出实验结果。这里我们给出特殊的方法给第二步和第三步,通过运用不相似性以及显著性来定义图像上的权重并定义为马尔科夫链。不像以前的作者,我们不想把那些仅有一点相似的特征连接起来。我们也直接比较我们的方法和其他人的,把人类的视觉注意力预测为一个“表现矩阵”。

这篇文章的贡献被总结为以下几点:

一个完整的自底向上的基于图论的算法,GBVS,同时包括了“激励”与“归一化”完整的结构

对GBVS算法以及现有的标准的比较,用到了一系列的自然环境的灰度图和来自七个人的眼部运动的视觉注意力数据。数据来自于Einhauser et. al.最近的实验。

2推荐算法-GBVS

给定一幅图像I,我们想最终能突出一大堆有用的区域,在这些区域图像包含的信息根据某些标准来说并不丰富,比如人类视觉注意力。以前有的解释是这个过程是以第一步计算的特征图为条件的,比如在一些非线性处理的基础上进行一些线性滤波。第二步的激励以及第三步的归一化和融合会在一下部分中描述。

2.1生成一幅激励图

假定我们已经得到一幅特征图M:[n2]-gt;R。我们的目标是计算出一幅激励图A:[n2] -gt; R。这样直观上,图像I或者M的区域与它周围区域的不同在激励图A上对应更高的值。

2.1.1现有的方案

我们用的词“unusual”并没有被充分地限制,所以也可以用其他的定义来表示这种不同。“improbable”将会将人们引向Bruce的公式,在他的公式里围绕着(i,j)计算了直方图M(I,j)。

接着归一化并处理为可能性分布。所以,其中{M(I,j)|neighborhood}。另一种方法比较局部的中心分布与周围的像素分布。

2.1.2一种马尔科夫的方案

我们提出了一种更有组织的方案。我们将M(i,j)与M(p,q)的不相似性定义为

这是一种对不相似性很自然化的定义:只简单地用了两像素点的距离以及算法尺度上两者的比值。在我们的另一些实验中,我们用来表示,我们发现这两种情况都工作的很好。现在,考虑一下全连通的有向图GA,通过连接M中的每一个点得到,即(i,j)与M中除(i,j)之外的其他点所得。从(i,j)到(p,q)的边缘被分配一个权重

是一个自由参数,从公式可以看出,从节点(i,j)到节点(p,q)的权重是和他们的不相似性以及在M区域邻近度成比例的。同时,反方向的边具有相同的权重。我们现在可以通过归一化每个节点到节点1的边的权重来在GA上定义一个马尔科夫矩链,并且找出节点和状态,权重和转移可能性之间的等值关系。这个链上的平衡分布表示了在一直行走的状态下,一个随机游走的人在每个节点或状态所花费的时间,这个时间将会自动地在和周围拥有高的不相似性的节点之间积累增多,这种转换对其他子图来说都是类似的,但如果M中的值比较相近得到的转换将会不同。从成对的对比度中得到的结果是激励的测量值。

我们称这种方法更加的有组织是因为,在生物学上,单独的节点(神经元)存在于一个连接的网络(视觉皮质层)中,而且和其他节点以一种给予重要的事更高的激励的方式来交流,包括快速决定哪个区域需要额外的关注处理。相似地,我们的方法展示了以一种完全并行的方式对不相似区域的连接。算法可以单独地对每个节点进行处理:在一个同步的环境下,每一个时间节点,节点仅仅对进入节点的量求和,然后把这测量的结果根据输出的权重分配给他的相邻节点。这个简单的过程同时并行地在所有节点上进行。

技术文档

马尔科夫链的平衡分布存在且独特因为链是遍历性的。实践上,平衡分布是通过将马尔科夫矩阵重复地与一个初始向量相乘得到。这个过程产生矩阵的特征向量。因此计算复杂度是O(n4K),Klt;lt;n2,这里k是迭代次数要求能符合平衡分布。

2.2归一化一幅激励图

归一化这一步骤的目的远没有激励这一步骤的清晰。但是这确是一个非常值得学习的地方。早期,三个分离的方法被提出来当做标准,并且最近Itti的关于“surprise”方面的工作也进入到归一化阶段的显著度计算。我们应该先声明这一步骤的目标:“将激励图中的量集中”,如果量在融合成一幅图之前没有集中起来,总图的结果将会看起来很平坦并且找不到应有的信息。这或许看起来不重要,但其实这是显著度算法中的核心:“将激励集中到某些重要区域”。

已经有了上面的“量的集中”的定义,我们提出另一种马尔科夫算法如下:

这次,我们假设已经有了激励图,这是我们想要归一化的。我们创建一个图GN它有n2个点。从某一点(i,j)到其他与其相连的任一点(p,q)(包括(i,j)),我们介绍一种从(i,j)到(p,q)的权重:

然后,再次将向外发散的边的权重归一化,然后把结果的图当做马尔科夫链,在计算每个店的平衡分布。具有高激励值得点将会有更大的机会拥有更大的量值。这是一个构建的两只集中算法,像之前一样每个点仍然是并行的,具有相同的自然优势。在实验中,我们的算法表现的相当不错,和“DOG”“NL”算法比起来。

3实验结果

3.1准备以及范例

我们队自然世界中的真实图像进行显著度的计算,并比较算法的预测人眼注意力的能力。我们所进行的实验的例子描述如下:对每一系列的图片,我们用传统方法计算出对应的特征图,然后,我们分别用不同的激励算法归一化算法来处理这些特征图,最后将得到的图像简单的求和。最终的总显著图根据收集到的相应的纹理图注意力数据进行打分,并根据所用的激励算法归一化算法进行标注。然后我们使用一系列的图像及集,并用不同的方式对得到的打分以及标注数据进行分析,下面说明了一些方法:

算法标注:在此之后“图一”“图二”指代2.1.2节所描述的激励算法所得到的图,不同之处是图一使用的自由参数为2.5,图二使用的自有参数为5。“图三”“图四”指代2.2节中所描述的归一化方法反复迭代的独到的图像,不同之处为迭代过程结束的规则不同,图三用的是比较复杂的结束规则,在多次迭代相乘之后寻找一个局部最大值且能实现一个稳定的平=平衡分布,图四中结束规则就是在迭代四次之后即终止。归一化算法中所提到的“I”指代的是“亮度”,其用了最简单的归一化规则:不对激励图进行改动。“max-ave”和“DOG”算法可从“saliency toolbox”工具盒里找到。其中的参数已经根据文献[1][2]进行了校对,但其实效果几乎一致,其中一些参数的轻微变化可以是输出参数有更好的表现。“NL”算法的参数是根据文献[11]所提供的两套参数所设置的。

3.2观察自然图像的人眼部的运动

在Einhauser et. al.的一个实验中,他收集了人类以及灵长类动物的基于108幅图的视觉注意力数据,每一个数据都用九种方式修订过。图二展示了一幅此实验中的一幅样例图,上面的“x”表示了三个人类主观判断的视觉注意力点。在这个实验中,108幅图的749种修订版本以及24149个人类视觉注意力数据被使用,且这些视觉注意力数据都是客观上有用的。每一幅图被裁剪到600X400像素点的大小然后被展示给观察者,这占据了他们视觉区域的75。X65。。为了使算法的对比更加准确公平,所有实验的第一步特征提取都用的是同一种方法。分别用了原图的尺寸的(),并且每个图均运用了四个角度的gabor滤波器,对比度是通过亮度的差异来计算的。这12幅图最终豆浆杯下采样到25X37的大小。

“c-s”算法中的激励图是通过原始的同一通道特征图相减得到的,这个特征图是通过对原始图像二倍缩小得到的四个等级的大小的图像计算得到,然后再被插值到25X37像素点大小。在文献[2]中,这些图将被标注为{2,3},即原图像的其中,对应着4个梯度变化的图。其他的激励的步骤在2.1.2和2.1.1节中描述。归一化的步骤之前已经介绍。图2显示了通过两个方案(激励,归一化)计算的一幅真实图像的显著图。

图1:视觉注意力点图

图2(a):GBVS显著图 图2(b):传统显著图

最后,我们将要展示在图像数据集上运行我们算法的表现。对每一个图像,一个客观的ROC曲线按照以下方式来计算:对三个观察图像的受试者的任何一个,将他的视觉注意力的点和剩下的两位的用一个循环衰减的核来卷积,其中衰减常量符合视网膜中衰减圆锥细胞的密度。这被处理为直接源于人类视觉注意力的显著图,其目标点被设置为第一个受试者的注意力点,一个受试者对应一个ROC区域。在下图中,三个受试者的ROC平均值被称作“inter-subjectROCvalue”。对每个值的范围来说一个平均值表现矩阵通过对不同的激励图以及归一化图计算得来。对任一个图来说,一个ROC区域都是通过对最终的显著图以及三个受试者的注意力数据结合算得的。结果显示在下面。

图3:(a)激励图比较 图3(b)归一化图比较

图4:方案比较

在图3和图4中,折线的高低显示了算法的表现的大致的高和严格的低的情况。图3显示了GBVS算法对视觉注意力的预测能力和标准算法比较起来的强大。图4显示了融合激励图和归一化图并和标准的Ittiamp;Koch算法对比的效率。

表1:端到端算法的表现

表1总结了融合一些可能的激励图以及归一化图的结果,同时说明了不同的融合对应着不同的现有的标准算法。效果被计算为客观ROC区域表现出来。总体来说,我们将会找到Ittiamp;Koch显著度算法得到的ROC区域的中值为0.55,平均值为0.57。

4讨论和总结

尽管一个对老问题的简单且新颖的方法被提出总是受欢迎的,我们也必须找一个科学的说明为什么这个新方法是有效的解释,假定给了计算出特征图的方法,为什么我们的GBVS算法计算得到的显著图表传统的标准算法要准确。我们找到了至少两点理由来解释这个差异。第一点,因为节点在平均意义上和一些中心点离得更近,而不是和周围的点,这是GBVS算法一个很重要的性质用以提高有高得显著度的节点的值。我们假设这个中心偏置在预测视觉注意力方面很有用,由于人类在图像方面的经验(更多地注意中心物体)以及日常生活的经验(头部的运动使我们更多地直视前方)。尤其是在我们的实验中,植物的那幅图片没有所谓的中心物体。我们需要通过激励图量化GBVS算法中的中心偏置,然后归一化一个标准的图。然而,如果我们将这个中心偏置添加到传统的标准算法得到的显著图中,我们会发现传统算法也将会有更好的效果,但仍然不如GBVS算法。在某些情况,比如“DOG”算法,引入这个直流偏之后只能弥补和GBVS算法差异的20%。在“max-ave”算法中,能弥补90%的差异。我们

全文共6731字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144575],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。