完全卷积网络的语义分割外文翻译资料

 2022-10-14 18:52:47

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


完全卷积网络的语义分割

摘要

卷积网络是一种很有效的视觉模型,可以生成不同层次结构的特征。我们显示的卷积网络本身,进行端到端、像素到像素的训练,胜过目前最先进的语义分割。我们的关键点在于构建一个“完全卷积的”网络,能接受任意尺寸的输入并且根据有效的预测和学习产生对应尺度的输出。我们定义并且详述了完全卷积网络的空域特点,说明它在空间密集性的预测任务上的应用,并且与已有的模型建立联系。我们将现代分类网络(Alex Net、VGG网络和GoogLeNet)融合进完全卷积网络,并且通过注意调优将它们已知的表现形式转变成分割任务。然后我们通过将从一个深度的、模糊的层次提取出来的语义信息和从一个浅层的、精确的层次提取出来的表面信息结合起来,定义一个新颖的构架,用来获得精确具体的分割。我们的完全卷积网络在PASCAL VOC(2012年在平均基本单位方面取得20%的相对改进达到62.2%)、NYUDv2和SIFT Flow中被认为是目前最先进的分割算法,同时推测一幅典型图片费时不超过五分之一秒。

  1. 引言

卷积网络推动了图像识别领域的发展。卷积网络不仅改善了对整个图像的分类[19, 31, 32],也对有结构化输出的局部任务带来了进步。这些改进包括以下方面:边界目标检测[29, 12, 17],局部和关键点的预测[39, 24],局部相关[24, 9]。

通常从模糊推理发展到精确推理的下一步是对每一个像素进行预测。在已有的使用卷积网络做语义分割的方法中,每个像素都用包围它的物体或区域标识了其类别,但是这种方法也带来了一些缺点。

图1.完全卷积网络能高效学习完成对每个像素做密集预测的任务例如语义分割

我们证明了在无需更多机械的情况下,用一个端到端、像素到像素都经过训练的完全卷积网络(FCN)进行语义分割优于目前最先进的方法。据我们所知,这是第一次对FCN以含监督的预训练为依据进行端到端的逐像素预测。对任意大小的输入,现有网络的完全卷积形式预测为密集的输出。学习和推理都是通过密集前馈计算和反向传播,按一次处理整个图像来进行的。网络内的升采样层使得逐像素预测和根据子采样池的网内学习成为可能。

这种方法在渐近的语义分割和绝对的语义分割中都是有效的,并且避免了在其它工作中的复杂性。逐块训练很普遍[27, 2, 8, 28, 11],但是它没有完全卷积训练那么高效。我们的方法没有利用前期处理和后期处理的复杂性,这些复杂性包括超级像素[8, 16],各种方案[16, 14]和通过随机领域或局部分类得到的后期改进[8, 16]。通过把现有的分类网络重新解释为完全卷积的网络,并且对它们已知的表现进行注意调优,我们的模型把在分类领域最新的成果[19, 31, 32]转化成为密集预测。对比之下,之前的工作使用了较少的不含监督的预训练的卷积网络[8, 28, 27]。

语义分割面临着一个含义和位置之间的固有矛盾:整体信息决定了这是什么而位置信息决定了这是哪里。在局部到整体的金字塔中,深度特征的体系结构联合起来对位置和含义进行编码。在4.2节(见图3)中我们定义了一个新颖的跨层连接图形结构,用于将深层的、粗略的语义信息与浅显的、细致的表面信息结合起来。

在下一节,我们回顾在深度分类网络、完全卷积网络和利用卷积网络的解决语义分割问题的最新方法这些方面的相关工作。接下来的一节将解释完全卷积网络设计和密集预测权衡,介绍我们包含网络内升采样和多层次相结合的体系结构,并且描述我们的实验框架。最后,我们在PASCAL VOC 2011-2, NYUDv2 和 SIFT Flow中最先进的结论。

2.相关工作

我们的方法吸收了图像分类[19, 31, 32]的深度网络和迁移学习[4, 38]的最新成果。迁移首先在各种视觉识别任务[4, 38]中应用,然后在检测中和针对混合方案分类模型[12, 16, 14]的即时语义分割之中。我们现在将分类网络进行重构和注意调优,使之成为语义分割的直接密集预测。在这个框架中,我们用图表表示出过去的以及最近的完全卷积网络的空域特点并且放置之前的模型。

完全卷积网络 据我们所知,扩展一个卷积网络使之能接受任意尺寸的输入这个想法最先出现在Matan 等人[25],它将传统的Le Net 网络[21]扩展用于识别数字字符串。由于他们的网络只能输入一维的字符串,Matan等人使用了维他比译码来得到输出。Wolf and Platt[37]扩大卷积网络输出为邮政地址块四个角检测分数的二维地图。这两件已做的工作都为预测和学习完全卷积网络做检验。Ning等人[27]利用完全卷积预测,定义了一个对C.elegans组织的模糊多级分割。

也在当前的多层次网络时代,全卷积计算也被广泛利用。Sermanet等人的滑动窗口检测[29],Pinheiro 和 Collobert的语义分割[28],Eigen等人的图像重建[5],都做了全卷积推理。全卷积训练比较少见,但是Tompson等人[35]也将它有效地用在了一个端到端的部分探测器和姿态估计的空域模型中,尽管他没有对这个方法进行解释和分析。

另外,他们[17]舍弃了分类网络中的非全卷积部分,用于构造一个特征提取器。他们结合不同方案和空间金字塔池,对分类产生一个局部化的、定长的特征。尽管快速而有效,这个混合模型不能被端到端地学习。

卷积网络的深度预测 一些最近的工作把卷积网络应用到深度预测问题中,包括Ning等人[27]、 Farabet等人[8]和 Pinheiro和Collobert [28]的语义分割;Ciresan等人[2]对电子显微镜的边界预测和Ganin and Lempitsky[11]通过混合神经网络/近邻模型得到的自然图像;Eigen等人[5, 6]的图像重建和深度估计。这些方法的公共要素包括:

●约束容量和接受范围的小模型;

●逐块训练[27,2,8,28,11];

●超像素投影的后期处理,随机域的规范化,滤波,或者局部分类[8,2,11];

●像Over Feat[29]引入的一样,对密集输出[28,11]进行输入转化和输出隔行扫描

●多尺度金字塔处理[8,28,11];

●饱和非线性双曲正切[8,5,28]

●集成[2,11];

但我们的方法没有这个机制。然而,我们从完全卷积网络的角度研究逐块训练和“转换与缝合”密集输出。我们也讨论了网络内的升采样,Eigen等人[6]对其进行的完全关联的预测是一个特例。不像这些已有的方法,我们对深度分类体系结构进行改进和扩展,把图像分类作为有监督的预训练,并且进行完全卷积的注意调优使之能从这个图像输入和这个整个图像的参考标准中简单有效地学习。

Hariharan等人[16] and Gupta等人[14]同样地将深度分类网络改进成为语义分割,不同的是他们是在混合混合方案分类器中实现的。这些方法通过对边界采样和/或检测区域的建议,语义分割和实时分割,实现对一个R-CNN系统[12]的注意调优。着两种方法都不能进行端到端地学习。

他们分别在PASCAL VOC分割and NYUDv2 分割上取得目前最先进的成果,因此我们在第5节中直接把我们独立的端到端的完全卷积网络和他们的语义分割进行对比。

  1. 完全卷积网络

在卷积网络每一层中的数据都是一个大小为htimes;wtimes;d的三维向量,其中h和w是空间维度的,d是特征或者通道维度的。第一层是这个图像本身,像素尺寸为htimes;w,色彩通道为d。在更高的层次的位置对应着在图像中他们路径连接着的位置,这被称为他们的感受野

卷积网络建立在平移不变性上。他们的基本要素(卷积、池和激活功能)在局部输入范围内工90作,并且只依赖于相对空间坐标。将特定的一层的位置为(i,j)处的数据向量记作,将下一层的用表示,通过下面的公式计算出:

其中k被称为核大小,s是步长或者子采样因子,决定了层类型:一个矩阵乘法卷积或者平均值池,一个空间最大的最大值池,或者是对一个激活函数的逐元素的非线性化,以及其他类型的层。

这个函数的形式包含在下面的组成中,其中核大小和步长符合以下变换规则

当一个一般的深度网络计算一个一般的非线性函数,一个只有这种层次的网络计算一个非线性滤波器,我们称之为一个深度滤波器或者一个完全卷积网络。一个完全卷积网络通常对一个任意大小的输入进行运算,然后产生一个在空域对应大小(可能是重新采样了的)的输出。

一个由FCN组成的实值损失函数定义了一个任务。如果这个损失函数是对最后一层的空域求和,,它的梯度就是它所有空域分量梯度之和。因此整个图像的随机梯度下降,可以将最后一层的感受野作为一个子集,求它的随机梯度下降得到。

当这些感受野显著重叠时,对整幅图像逐层逐层地运算而不是独立地逐块逐块地运算,会使前馈计算和反向传播高效得多。

接下来我们解释如何将分类网络转换成能产生粗糙的输出映射的完全卷积网络。对于逐像素的预测,我们需要将这些粗糙的输出和像素点反向联系起来。3.2节描述了OverFeat[29] 为达到这个目的引入的一种技巧。我们通过将它重解释为一种等效网络改进获得了对这种技巧的深入了解。作为一种高效的有效的另一种方法,我们在3.3节中介绍对升采样的反卷积层。在3.4节我们考虑逐块采样的训练,然后在4.3节中证明我们对整幅图像的训练更加迅速并且同样有效。

3.1.使分类器适应密集预测

包括LeNet[21], AlexNet[19]在内的典型的识别网络和它更深层的继承网络,表面上都是接受固定大小的输入并且产生非空间的输出。这些网络的完全连接层具有固定的维度并且不再有空间坐标。但是,这些完全连接的层也可以通过覆盖它们整个输入区域的核而被视作卷积。这样做可以将他们投影到完全卷积网络,能接受任意大小的输入并产生分类映射。这种变换的解释如图2。(通过对比可知,例如Le等人[20]提出的非卷积网络缺乏这种能力。)

图2.将全相关层转换成卷积层可以使一个分类网输出热点图。增加层次和空间损失(如图1)能产生一个端到端密集学习的有效机制

除此之外,当得到的映射图和原有网络对特定输入块的估计值相同时,在这些输入块的重叠区域,计算量会被很大程度地分摊。举例来说,AlexNet需要

1.2ms(在典型的GPU上)对一幅227times;227的图像得到分类分数,而完全卷积的形式用了22ms对一个500times;500的图像产生一个10times;10的网格输出,这种方法比前面那种幼稚的方法[1]快了5倍。

这些卷积化的模型能产生空域输出映射图使得它们成为解决包括语义分割问题在内的密集问题的一种很自然而然的选择。因为每一个输出单元的参考标准都是可利用的,正向推导和逆向推导都是直接的,并且都利用了卷积固有的计算效率(和积极的优化)。

我们将分类网络重解释成为完全卷积的形式使之对任意尺寸的输入能产生输出图像,与此同时输出维度往往也因为子采样而减少。分类网络通过子采样使得滤波器保持小型化也使得计算量的要求合理化。这样使得这些网络的完全卷积形式的输出更加粗略,通过相等因子将网络从输入尺寸降低到输出单元接受野的像素步长。

3.2.平移与缝合是过滤稀疏

输入平移和输出叫做这种技巧可以无需插值就从粗略的输出中产生密集预测,这种方式是由OverFeat[29]引入的。当输出以因子f被缩减像素采样,输入被向左平移(通过左边和顶部填充)x个像素,向下平移y个像素,前提是每个。这个输入每一个都通过这个卷积网络,并且输出是交织的,所以预测对应着这些感受野中心的像素。

仅仅改变卷积网络的这些滤波器和层里面的步长能够产生与“平移和缝合”技巧相同的输出。考虑一个输入步长为s的层(卷积或者池),下面的卷积层的过滤权重为(特征维度在这里无关紧要,因此省略)。就像平移和缝合一样,把低一层的输入步长设置为1,以因子s对输出进行升采样。不过,用升采样的输出卷积原始的滤波器并不能产生和这种技巧一样的结果,因为原始的滤波器只看得到输入(现在已被升采样)的简化部分。为了重新实现这个技巧,通过扩展这个滤波器来使之稀疏化

(i和j从0开始取值)。重现这种技巧的全网络输出需要逐层逐层地重复地扩展这个滤波器,直到所有的子采样都被去除。

在网络内简单地减少子采样是一个权衡:滤波器看到了更加细致的信息,但是就有了更小的感受野和更长时间的计算量。我们已经看到平移和缝合技巧是另一种权衡:没有减小滤波器感受野大小的情况下输出变得更密集,但是相对于原来的设计,这些滤波器不能在更细致的层面获得信息了。

尽管我们已经对平移和缝合做了初步实验,但是在我们的模型中没有使用它。我们发现,通过下一节中描述的升采样进行学习更加有效而且高效,尤其是当与后面介绍的跨层连接融合相结合的时候。

3.3.升采样是步幅后向的卷积

把模糊输出和密集像素联系起来的另外一个方法是插值。举例来说,简单的双线性插值通过一个线性图中最接近的四个输入算出每一个输出,这个线性图只依赖于输入和输出单元的相对位置。

在某种意义上,以因子f进行升采样就是以分数的输入步长做卷积。只要f是整数,升采样的一个自然的方式是以输出步长为f进行反卷积(有时被称为去卷积)。这样的操作实现起来很容易,因为它仅仅将卷积的正推和逆

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151242],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。