基于CNNs的语义图像分割研究外文翻译资料

 2022-08-02 12:51:24

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


基于CNNs的语义图像分割研究

1简介

语义图像分割是计算机视觉中最具挑战性的问题之一。这也是计算机视觉中,如场景理解、重构和图像处理等热门话题的前提。

在提出Pascal VOC 2007语义分割挑战之前,很多工作都集中在图像的几何标记上。这些方法可以分为两个主要类别:基于统计的方法和基于几何的方法。大多数参数统计方法都是基于几个简单特征对图像进行过分割,基于图像外观将数字图像划分为多个区域。然后通过提取复杂的手工特征,使用马尔可夫随机场(MRF)方法或语法方法将这些超像素分类为不同的几何类别。无需训练步骤的数据驱动非参数统计方法从检索集中找到最相似的场景,可以在其上进行密集对齐。然后,将对齐的标签传送到输入端。基于平面和直线之间平行度和并行性约束,用几何方法直接计算几何标签。

图 来自分割子集的示例

最近,卷积神经网络(CNNs)吸引了许多研究人员的注意力,因为它们能够从图像中自动提取比传统手工图像更为紧凑和有意义的特征。实际上,CNNs在许多任务中都表现出明显的优势,包括图像分类和物体检测。

在2015年和2016年,借助CNNs,语义图像分割的成果可以显著提高。语义图像分割等效于像素级分类问题。借助于滑动窗口或完全卷积神经网络之类的方法可使现有的图像分类结构直接适用于语义图像分割。

空间语义不确定性原则是语义分割中的主要挑战。在较高的语义级别,特征图谱的分辨率在一般的CNNs中迅速降低,这限制了分割结果的准确性。在许多高级视觉任务中,CNNs的下采样和不变性阻碍了空间细节的提取。最近许多方法已经尝试保存,提取或恢复结构信息以增强从深层获得的高度抽象的特征。基于相当准确的图像分类和检测程序,关键任务是识别物体的边界像素。

有几个与语义分割相关的数据集,例如Cityscapes,PASCAL-Context,ADE20K,MS COCO和BSDS。在本文中,我们调查了Pascal VOC 2012语义分割挑战的最新结果,这是这方面最具代表性的图像数据集。选定的二十个对象类如下:

bull;人:人;

bull;动物:鸟、猫、牛、狗、马、绵羊;

bull;车辆:飞机、自行车、轮船、公共汽车、汽车、摩托车、火车;

bull;室内:瓶子、椅子、餐桌、盆栽、沙发、电视/显示器。

该数据集可用于对象分类、检测、分割、动作分类以及图像网的大规模识别竞赛。分割子集包含用于训练的1464张图像和用于验证的1449张图像。如图1这些图像中的每一个至少包含一个对象,通常是从不同视图捕获的一些被遮挡的对象。

使用几个新提出的层,结构和策略,可以实现显着的改进。

人们提出了各种新的层次和结构来处理上下文信息。其中一些是概率图形模型(PGMs)的实现,例如条件随机场(CEFs)和MRF,用于建模各种上下文关系。PGMs的泛化能力和CNNs的学习能力是相辅相成的。处理上下文关系的其他方法利用了递归神经网络(RNNs)和长-短期记忆(LSTM)神经网络等结构,它们显式地传播长期上下文信息。因此我们认为这些方法之间存在一定的相关性。

具有可变分辨率、多尺度和不同抽象级别的特性在这些新结构中的进行多层传递和混合。非冷却层和反褶积层交替使用,以提高分辨率和提供更多细节。扩展卷积和反褶积用于在视野、参数数目和特征映射的分辨率之间实现权衡。多尺度特征隐含了不同类型的上下文信息,增强了框架的鲁棒性。具有不同抽象级别的特征可以被求和或连接成多粒度特征。

由于采用了更深层次、更多参数和更复杂的结构,需要更有效的策略来加速训练过程。一次迭代的计算成本应该降低,以确保整个网络是可处理的。为了避免数据集不平衡造成的过度拟合,可以对训练样本和目标函数进行提高。

我们没有比较不同新层次、新结构和新战略的表现,而是着重研究取得这些显著成就的原因。我们认为,通过分析它们的机制,可以确定如何以互利的方式将它们结合起来,以提高最终质量。

2语义图像分割的最新进展

近年来,语义图像分割取得了重大进展。我们在表中列出了最重要的工作,每种架构都实现了最佳效果。在高级视觉任务中,随着非线性程度和语义抽象程度的增加,形状信息会丢失在CNNs逐层提取的特征中。然而,精确的分割需要将这类信息附加到最终输出中。

有两种常用的方法来恢复语义对象的结构:从不同的CNN层组合信息和在图像或特征空间中构造更多的上下文关系。

合并不同CNNs层的信息。跳过层体系结构能够显示从不同层聚合的多粒度信息。考虑到特征图的分辨率不一致,设计特征图组合的方法,是在设计精细分割框架时要考虑的主要因素。特征图要么上采样到给定的大小,要么保持分辨率不变。因此,减少层间结构信息的丢失并提高插值的有效性是恢复更多结构信息的关键。实际上,这些方法模拟了人类大脑在处理相同问题时的行为。由于CNNs的接受域无法保持与观察对象的匹配,因此这种架构不能和人类完全相同的基于经验和逻辑的方法来执行全局优化。

构建更多的上下文关系。在将CNNs应用于语义图像分割之前,通常使用PGMs,包括CRFs和MRFs,来建模节点之间的连接,这些连接对应于图像中的像素或超像素。能量函数的输入通常是手工制作的特征,可能会限制这些方法的有效性。而且,传统的推理算法由于计算成本高,无法成功地应用于大型数据集。

随着采用CNNs进行语义图像分割,CRFs可以成为一种有效的后处理组件,用于平滑此类CNNs的输出。应用推断分段的近似算法,CRFs可以实现为常规CNNs中的层。同时,端到端的培训策略进一步提高了效果。将CRFs转换为CNNs层并快速训练此类框架的方法是相关工作的主要贡献,RNNs是描述时间和空间的长期依赖关系的有效工具。初步细分可以通过RNN中的重复迭代进行优化。RNNs不仅可以是PGMs的实现,而且是一种可以用于显式传播上下文信息的特殊类型的灵活结构。作为结合门功能的RNN,LSTM神经网络已成为可以记住或忘记不一致的上下文信息的流行结构。我们的实验结果表明,尽管提高了测试集的准确性,但系统对训练集之外的图像的鲁棒性仍然是一个未解决的问题。

2.1多粒度功能组合的实现

从16层VGGNet产生的结果可以看出,特征图在特征维和从一个层到下一层的空间维上都变得稀疏,并且随着分析在整个框架中进行,更高层次的语义信息在更少的映射中变得集中。各种多粒度特征的语义级别从颜色和边缘到子对象甚至整个对象的典型结构排列。高语义级别的特征可用于粗略地对对象进行定位和分类。相反,与局部外观有关的低语义级别的特征不足以对观察到的补丁进行分类,但有助于区分对象的细节,尤其是靠近边界的细节。

关于按像素分类任务,可以将像素分为属于容易区域和困难区域的像素。困难的像素通常位于边界附近,并且是评估方法有效性的主要依据。特征编码器输出基于堆叠的卷积层,ReLu层和池化层低分辨率特征图。在一般的CNNs中,FOV确定分段的准确性。由于缺少检测对象的完整信息,较小的FOV可能会导致误报或误报。为了扩大FOV的尺寸,将池化层和下采样层引入了CNNs,从而降低了输出分辨率和细节质量。因此,为了提高分割的准确性并改善建议的边界,尝试在不损失分辨率的情况下扩大FOV并整合处理不完整对象的能力,需要使用大量的中间多粒度特征图来进一步改善语义分割

但是,太大的FOV可能会合并一些不相关的上下文,这会导致标签错误,使用过多的参数来过度拟合数据并消耗过多的计算资源。 就要采用参数和多尺度方法的约束来缓解这些问题。

图 从不同VGG-16层得到不同的语义特征图

解池层和反卷积层是高效且关键的结构,用于以更高的分辨率计算更详细的特征图。代替经典的平滑内插,需要可以恢复细节,特别是边界信息的上采样操作。通常,将非池化层放置在对称位置,以将输入图的大小调整为具有记录在相应池化层中的结构模式的较大图。反卷积层通常用作复杂的非线性插值滤波器,以推断语义对象的原始形状。使用经典方法将图像划分为不同频带,设计他们完整的结构。在组合多粒度信息的过程中,可以从浅层特征图中恢复细节。他们将包含先验知识的基础函数人工嵌入到反卷积层中,可以有效地重建高分辨率细节。在端到端训练期间,发现这些基本特征没有明显变化,从而间接证明了在CNNs中使用人工特征的有效性。这种方法将反卷积层的用途扩展到了重建任务,使用现成的解池层和反卷积层更易于配置和训练。为了改善外观恢复中的不良状况,一些框架需要尝试避免过度的下采样。在深度解析网络(DPN)方法中,从VGG-16中删除了一些池化层以提高中间层的分辨率,并且将卷积层中的内核填充到更大的尺寸以确保现有的权重。 Overfeat移位输入并隔行输出以产生更密集的预测而无需插值。

考虑到参数的数量,使用无规则卷积和膨胀卷积来减少由池化层引入的特征图中分辨率的损失。实验表明,扩大的视场和隐含的聚合多尺度上下文信息可以显着改善结果。丢包也是避免过度拟合的有用模块,已被证明可以降低Rademacher多项式或指数形式的复杂度。

在没有明确组合粗略信息和精细信息的情况下,DeconvNet 在VGG-16的末尾附加了一个对称分割网络,该网络被视为特征编码器。2016年,功能更强大的ResNet被采用来替代经典的VGG-16,以直接改善结果。分割网络是由解池,解卷积和精馏操作构成的。此外,如果将反卷积层替换为传统的卷积层,则结果仍可与现有研究相比较。我们认为,池化层的激活模式是这个推理过程中最有意义的部分。该方案非常简单明了,可以轻松地应用于许多更强大的框架中。

多个语义级别的简单组合通常会忽略不同特征的不同有效性。但是,希望除了学习到的稀疏有效参数外,还可以增强这些特定的连接,使其对某些变化敏感,例如规模,位置甚至语义类别的变化。注意模型可以作为超参数来加权不同的特征或分数。出于不同的考虑,从网络中学到的注意力模型可用于增强整个方法的准确性和鲁棒性。

明确考虑分段的完整性,多尺度补丁聚合(MPA)使用合适的FOV来分段部分或整个对象,然后将其集成到完整的配置中。这是提高尺度变化的鲁棒性的新颖方法。

对于边界附近像素的不同外观,语义边界的识别可以实现比语义分割更好的准确性,并且在粗略分割的细化之前,可以将结果视为可信。由语义FCN预测的粗略分割用于定义边界神经场(BNF)的一元电势。然后使用局部边界建立成对的像素亲和力。成对电位可用于全局优化初始分割,并将这些电位添加到CRFs能量函数中。但是,不完整的轮廓和微小的错误边界会引入需要进一步研究的故障模式。

由于基于外观差异的过度分割会产生更丰富的统计特征,因此经典的图像分割方法通常使用超像素作为最终分割的分层生成的输入。 一些人提出了一个CNN框架,用于从一系列嵌套区域(称为缩小区域)中提取特征,这些嵌套区域的大小从超像素增加。然后,基于分配给这些区域的特征,通过多层神经网络对超像素进行分类。

在上面讨论的方法中,特征编码器的输出整体上传递到后续的分割网络。但是,并非所有特征图都非常适合特定的语义对象,有些甚至可能导致分割结果的质量下降。为了选择特定类别的信息,DecoupledNet使用桥接层将分类网络和分段网络分离。桥接层从最后一个池化层获取输出,并使用f(k)中与特定类l有关的激活的相关性来构造给定语义标签的特定于类的激活图。然后,可以单独训练对应的特定类的分割网络。

像EDeconvNet这样的增强框架一样,表3中列出的不同方法的组合可以进一步提高准确性。许多实验结果表明,这些方法在一定程度上是独立的。如图3所示,尽管普遍缺乏实验,但以上讨论的不同方法似乎在使用不同机制的整个过程的不同阶段产生了影响。无论数据集的大小,可用的视频内存和参数的数量如何,几乎所有这些结构都可以组合起来以独提高分割精度。对于较大的数据集,我们认为这些方法可以有效地提高分割框架的鲁棒性和准确性。

2.2语境关系构建的实施

本文将语境信息分为三类:外观语境、高级特征语境和语义语境。

bull;外观上下文基于外观一致性来平滑初始分割。

bull;由于外观有时是不可靠的,因此可以使用与语义信息内在联系更密切的高级特征来进一步消除初始分段的歧义。

bull;语义上下文主要描述初始分割中被识别对象之间的功能兼容性,这对消除局部区域的误解有很大的作用。

CNN可以从对等FOV内部传播上下文信息。然而,在一般CNN架构中,不一致或全局信息的可用性是有限的。为了明确地传播这些信息,一些人将输入图像视为无向循环图(UCG)结构,它可以表示为具有不同上下文传播方向的一组DAG。DAG-RNNs已经被提出用于处理DAG结构的图像,从而允许网络显式构建远程语义上下文依赖关系。LG-LSTM将网格LSTM方法扩展到全局上下文中,以细化当前分割。

PGMs从经典的方法应用到CNNs中,通过提供一种处理多种上下文的可行机制来补充CNNs。基于PGMs的语义图像分割可以看作是一个图形切割问题。上下文关系可以表示为图模型中的边和能量函数中的不同阶势。具有成对高斯边势的完全连接CRFs 模型通常这样用,该模型以输入为条件。在这种模型中,图像中的所有像素对之间都建立了连接。这些连接能够描述各种复杂的上下文关系,包括遮挡、空间关系和不连续。然而,随着输入分辨率的提高,边缘数的快速增长限制了全连通GRFs的实际应用。

图 使用GRF模型纠正后的结果

2.3新的培训策略

第2.1和2.2小节中讨论的网络涉及附加参数和更高程度的非线性。这些网络中的参数在有限的样本下,期望在可接受的时间内收敛到全局最优解。除了在其他任务中使用的常见技巧,如翻转、旋转、模糊和裁剪,在这种深度学习框架的端到端培训中还应考虑三个方面:

(1) 从头开始训练新的层,利用现有的模型对网络进行微调;

(2) 求解网络中

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[240916],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。