基于卷积神经网络的遥感图像分类外文翻译资料

 2022-12-25 14:14:25

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


基于卷积神经网络的遥感图像分类

摘要:提出了卷积神经网络(CNN)模型用于遥感图像分类。将CNN提供学习上下文功能的方法用于大规模图像标注。卷积神经网络由四个组成堆叠的卷积层,对图像进行缩减采样提取相关功能。除此之外,还有一个去卷积图层将数据进行采样回到初始分辨率,生成最终的密集图像标记。与以前的框架相反,卷积神经网络只包含卷积和反卷积操作。航拍图像的实验表明卷积神经网络有更准确的分类和更少的计算时间。

关键字:遥感图像 分类 深度学习 卷积神经网络

1.引言

图像分类是遥感中经常出现的问题,旨在为图像的每个像素分配标签。与图像分类问题相似(即,将整个图像分配给诸如“住宅”或“农业”区域的类别),进行密集的像素标记。密集分类问题的一个具有挑战性的方面是可以处理大规模遥感数据的算法设计。除了执行时间限制之外,获得准确的分类在使用大量数据时更加困难。

通过考虑其频谱以及可能与其近邻相关的一些约束,大多数最先进的分类方法单独标记每个像素[1]。在这项工作中,正在处理没有大光谱分辨率的大规模卫星图像,因此难以仅根据光谱区分对象类别。因此,必须从其上下文和周围对象的形状推断出像素的类。

卷积神经网络(CNN)学习不同语境下具有不同规模的功能。虽然最初是为图像设计的分类[2],最终证明它们在处理卫星图像的密集分类方面也很有效。

在遥感中,CNN已被用于对高光谱图像的像素的分类。卷积不是在空间域中卷积,而是在每个像素[3]的光谱域中进行,或者在一组相邻像素的光谱矢量中进行[4]。在2D空间域中进行卷积,以便自动推断出需要在卫星图像中分类的背景空间特征。Penattietal .[5]表明,用于识别日常物体的CNN很好地概括了遥感场景的分类。然而,最大的挑战之一是将整个场景生成单一类别的分类网络转变为密集标签网络。在遥感中,Mnih [6]通过CNN进行密集标记。典型的单输出最终层由完全连接的层代替,该层输出整个分类补丁。

接下来讨论Mnih的方法,并指出一些妨碍其准确性和效率的限制(Sec.2-3)。然后,提出了一种新的CNN架构,它仅依靠卷积层进行密集标记(第4节)。在各种实验(第5节)中表明,它优于以前的方法,并为遥感图像分类提供了坚实的框架。

2.基于PATCH的网络

用于图像分类的最先进的CNN倾向于遵循类似的模式:一系列卷积和子采样操作以提取图像的特征,接着是完全连接的层以执行最终标记到类别中。典型的CNN产生与类别数量一样多的输出,或用于二进制标记的单个输出。有关使用CNN进行图像分类的详细信息,请参阅读者[7]

在我们的问题中,必须生成一个密集的分类输出,即,不仅仅是整个图像的一个分类,而是对不同类别的完整像素标记。

为此,Mnih提出了一种基于补丁的卷积神经网络[6]。鉴于遥感图像的庞大规模,训练和推理是以补丁方式进行的。网络将航拍图像的补丁作为输入,并生成分类补丁作为输出。输出补丁较小,并以输入补丁为中心,以考虑周围环境以获得更准确的预测。创建密集预测的方法是增加完全连接的分类层的输出数量,以匹配目标补丁的大小。图1(a)示出了这种基于补丁的架构。网络采用64times;64补丁(在1msup2;空间分辨率的彩色pansharpened图像上)并预测相同分辨率的16times;16中心补丁。三个卷积层分别学习64个,112个和80个卷积核,分别为12times;12,4times;4和3times;3个空间维数。卷积核是三维的,即两个空间维度加上经过卷积的所有特征映射的第三维度。

第一个卷积不应用于输入的每个像素,而是应用于每隔一个像素,称为步幅。没有步幅(或其他类型的子采样),参数的数量变得太大,网络无法有效学习。在三个卷积层之后,完全连接的层将特征转换为256个元素的分类图,匹配所需的16times;16输出补丁。

每个卷积层后面跟着一个(ReLU)激活函数[7],以增加非线性并增加网络可以学习的函数空间。通过将sigmoid函数应用于最后一层的输出来计算最终分类概率。用于训练的损失函数是S形值的交叉熵[8]

通过应用于数据集的随机片的随机梯度下降来执行训练。在每次迭代中,将补丁分组为小批量以估计损失函数相对于网络参数的梯度,并相应地更新参数。

3.PATCH-BASED的局限性

现在指出上面讨论的PATCH-BASED的方法的一些限制,这些限制促进了改进架构的设计。首先讨论完全连接层的作用。考虑到第一个卷积的步幅,其前一层的特征图的大小为9times;9,并且具有输入分辨率的1/4。完全连接的层输出16times;16映射。这意味着完全连接的分层不仅可以进行分类,还可以学习如何将前一层的特征映射上采样到初始图像分辨率。此外,完全连接的层允许每个输出相对于先前的特征图具有不同的权重。例如,补丁左上角的输出像素的激活可能与右下角的激活不同。这使得网络可以在补丁内部的位置上学习先验,以便进行最终的分类。在图像的上下文中,将图像划分为块是任意的,因此不需要“补丁内位置”。否则,例如,两个相似但旋转90度的贴片可能产生不同的分类图。

在训练图1a的PATCH-BASED的网络时,期望在处理了许多训练案例之后,完全连接的层将获得定位 - 不变函数,对前一层的特征进行分类和上采样。 由Mnih [6]提出的基于补丁的网络实验表明,输出概率图中斑块边界处存在不连续性(见图4)。这意味着网络不能成功地学习像素,而不依赖于它们在补丁内的位置。

4.完全的卷积方法

提出了一种完全卷积神经网络架构(FCN)来产生密集预测。该体系结构明确地将补丁的输出限制为与位置无关,这意味着它们应该仅是一系列卷积的结果。

分类网络可以如下“卷积化”[​​9]。首先,重写完全连接的层,将分类作为卷积层进行分类。如果选择其尺寸与前一层重合的卷积内核,则连接等效于完全连接的层。现在的区别在于,如果放大输入图像,输出尺寸也会增加,但参数的数量保持不变。这可以看作围绕较大图像卷积整个原始网络以评估不同位置的输出。

为了提高输出映射的分辨率,然后添加一个“解卷积”层[9],它学习过滤器以对分辨率进行上采样。解卷积层采用单个输入并将其与学习的滤波器相乘,以产生输出补丁。如果这些补丁在输出中重叠,则只需添加它们即可创建最终结果。这可以看作是一个倒转的向后和向前通道的卷积层。与基于补丁的方法相比,我们的完全卷积网络具有以下优势:

bull;消除由于边界边界引起的不连续性;

bull;由于简化的学习过程,参数数量较少,提高了准确度;

bull;考虑到卷积可以享受GPU处理的好处,可以缩短推理的执行时间。

对基于补丁的网络进行卷积化,如图1所示。选择一个现有的框架来从成熟的架构中获益,并进行严格的比较。

图1b描述了这种转换为FCN的过程。在基于补丁的网络中,输出补丁内的每个输出相对于其所谓的接收场(与其连接的输入部分)位于不同的位置。这种行为很难证明,因此假设输出补丁大小为1times;1而不是16times;16,因此只关注单个中心输出。然后,将完全连接的层重写为具有一个特征映射和前一层(9times;9)的空间维度的卷积层。最后,添加一个解卷积层,将其输入上采样4倍,以恢复输入分辨率。请注意,分类和上采样的任务现在是分开的。

这个新网络采用不同大小的输入图像,输出大小也相应变化。在训练阶段,通过采用尺寸为80times;80的输入来模拟由基于补丁的网络执行的学习,以便像以前一样产生大小为16times;16的地图(参见图1c)。输入patch大于PATCH-BASED的网络,不是因为处理更多上下文,而是因为每个输出现在都集中在其上下文中。在推理时,采用任意大小的输入来构造分类图。对于任意大小的输入,FCN结构总是相似的,具有相同数量的参数。

图1c描述了反卷积的作用:来自前一层的每个神经元的输出值乘以学习的滤波器,该滤波器以4的步幅“粘贴”在输出中。由于8times;8的大小,重叠发生。过滤器。添加重叠区域(灰色),排除超出边界的多余区域(白色)。

5.实验结果

CNN使用Caffe深度学习框架[10]实现。在第一个实验中,将卷积神经网络方法应用于马萨诸塞州建筑数据集[6]。该数据集由波士顿的彩色图像组成,空间分辨率为1m2,覆盖面积为340km2,占地面积为22.5km2。图像被标记为两类:建筑物和非建筑物。具有其对应参考的图像的一部分在图4和图5中示出。图2a-b。

训练基于patch和完全卷积网络(分别为图1a和1c)对随机采样补片进行30k随机梯度下降迭代,其中小批量为64,学习率为0.0001,动量为0.9,权重正则化为0.0002 。Mnih [6]详细介绍了选择它们的参数和基本原理。

为了评估分类的准确性,使用了两种不同的度量:像素精度(正确分类像素的比例,通过输出概率的二元分类获得,阈值为0.5)和接收器操作特征(ROC)曲线下的面积[ 11]。后者测量模糊图的整体质量,1是对应于理想分类器的面积值。

图3a绘制了通过迭代的ROC曲线下面积和像素精度的演变。FCN始终优于基于补丁的网络。图3b显示了训练后最终网络的ROC曲线,FCN在真实和假阳性率之间表现出更好的关系(ROC曲线下的面积对于FCN为0.9922,对于基于贴片的网络为0.9899)。图2c-d描绘了视觉片段。为了进一步评估神经网络优于其他先前学习方法的好处,在每个类的1k个随机选择的像素上训练了具有高斯核的支持向量机(SVM)。这种基于SVM的方法对于遥感图像分类是常见的[1]

如图2e所示,这种像素方式的SVM分类十大混淆与建筑物相似,因为它们的颜色相似,而神经网络通过考虑上下文的​​几何形状更好地推断和分离类别。波士顿测试数据集的准确度为0.6229,其在ROC曲线下的面积为0.5193(低于CNN,如图3所示)。

就效率而言,FCN还执行基于补丁的CNN。不是在一个小的补丁基础上进行预测,而是简单地增加FCN的输入以输出更大的预测,从更好的收益来自GPU的卷积平面化。整个波士顿22.5km2数据集(使用Quadro K3100M GPU在Intel I7 CPU @ 2.7Ghz上运行)的执行时间为82.21s,基于补丁程序美国有线电视新闻网(CNN)反对8.47与FCN交换,显示加速10倍。

在第二个实验中,直观地展示了FCN对覆盖法国Forez地区的Ple宿星图像的分类的有效性,空间分辨率为0.5平方米。使用图像的pansharpened颜色版本,在从覆盖24.75km2的表面子集中提取的补丁上训练30k次迭代。用于训练的类和参数与Boston网络相同。为了在这个更高分辨率的图像中保留空间上下文的数量,首先对图像进行二次采样,然后对输出补丁进行线性上采样。用于训练的参考数据是从OpenStreetMap项目中提取的。图5显示了测试子集及其对应的分类图。对于基于补丁的CNN,推断2.25km2的瓦片的时间是10.6秒,对于FCN来说是1.8。

如两幅图像的放大片段所示(图4),基于贴片的方案中存在的边界不连续性在完全卷积设置中不存在。

6. 结束语

这项工作解决了卷积神经网络的遥感图像分类问题。CNN主要用于对图像进行分类,因此必须设计新的体系结构用于密集的像素分类。为此,提出了一个完全卷积神经网络。通过强加所有层必须卷积或反卷积的限制,增强了学习过程并减少了执行时间。实验结果表明,这种网络在精度和推理所需的计算时间方面都优于以前的方法。

参考文献

  1. Y.Tarabalka,J.A.Benediktsson,andJ.Chanussot,“Spectralspatialclassificationofhyperspectralimagery basedonpartitionalclusteringtechniques,” IEEETGRS, vol. 47, no. 8, pp. 2973–2987, 2009.
  2. Yann LeCun, Lacute;eon Bottou, Yoshua Bengio, and Patrick Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998.
  3. Tong Li, Junping Zhang, and Ye Zhang, “Classification of hyperspectral image based on deep belief networks,” in ICIP. IEEE, 2014, pp. 5132–5136.
  4. YushiChen,XingZhao,andXiupingJia,“Spectralspatialclassificationofhyperspectraldatabasedondeep beliefnetwork,” IEEEJ-STARS,vol.8,no.6,June2015.
  5. Otacute;avioABPenatti,KeillerNogueira,andJeferssonAdosSantos,“Dodeepfeaturesgeneralizefromeveryday objec

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[20625],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。