基于卷积神经网络的浮游生物分类外文翻译资料

 2022-12-03 14:38:58

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


基于卷积神经网络的浮游生物分类

摘要——由于传统的测量和监测浮游生物群体的方法是耗时的,不能扩展到大规模研究所需的粒度或范围,因此需要改进。对水下摄像机系统拍摄的图像进行手动分析是不可行的,所以使用机器学习工具的自动图像分类来代替手动方法。在本文中,我们提出了一个利用平移和旋转对称的浮游生物分类的深层神经网络模型。在这项工作中,我们提出了深度卷积神经网络结构设计的两个约束条件,以保证深度学习的性能提升。首先,对于每个卷积层,应该保证学习更复杂模式的能力;其次,最上层的接收层应不大于图像区域。我们还开发了一个类似结构的“初始层”来处理卷积神经网络的多尺寸图像输入。浮游生物群1.0图像数据集的实验结果显示了所提方法的可行性和有效性。

关键词——深度学习,图像分类,卷积神经网络

Ⅰ.介绍

传统的测量和监测浮游生物群体的方法是耗时的,不能扩展到大规模研究所需的粒度或范围,并且对水下摄像机系统拍摄的图像进行手动分析是不可行的,所以使用机器学习工具的自动图像分类来代替手动方法。从大型图像和视频识别公共图像存储库来看,如ImageNet[5]或浮游生物图像数据[6],以及高性能计算系统,如GPU或大规模分布式集群(Dean等,2012),深度学习和卷积网络(ConvNets)近来在大规模图像和视频识别([1],[2],[3],[4])中取得了巨大成功。在本文中,我们使用Caffe[7]实现了具有深卷积神经网络的浮游生物分类,在此工作中,我们提出了一种设计非常深的卷积神经网络结构的实用理论。此外,我们开发了一个用于多尺度图像输入的初始模块。基于浮游生物数据集的属性,我们在训练和测试阶段设计了旋转不变数据增量

A.浮游生物分类数据集

2013-06-03至2014-06-06,从佛罗里达海峡佛罗里达州沃尔顿史密斯收集的浮游生物图像数据[6]在2015年国家数据科学碗中使用,有大约30000个训练数据和130000测试数据。目的是将浮游生物的灰度图像分为121类。他们是使用水下摄像机在一个区域内摇曳创建的。使用相机获得的图像已经通过分割算法处理,以识别和分离单个生物体,然后相应地进行裁剪。有趣的是,所产生的图像中的生物体的大小与其实际尺寸成比例,并且不取决于到相机透镜的距离。这意味着数据集中的所有图像的大小都不同。在我们的工作中,我们开发了一个具有卷积神经网络的初始模块来处理多尺度图像输入,分类结果优于单固定尺寸图像输入。

B.相关工作

主要是由于深度学习的进步,更为复杂的卷积网络[8],图像识别和对象检测的质量一直在迅速发展。卷积神经网络(CNN)从LeNet-5[8]开始,通常具有标准结构C层叠卷积层(可选地跟随对比度归一化和最大合并),后面是一个或多个完全连接的层。

MaNetwork-in-Network是Lin等人(2014)[9]提出的一种方法,以提高神经网络的代表性能力。网络中的网络构建了一个具有更复杂结构的微多层感知来分离接收领域的数据。通过与CNN类似的方式在输入上滑动微网络来获得特征图。当应用于卷积层时,该方法可以被看作是附加的1times;1卷积层,通常由AlexNet[1]中提出的整流线性激活。这使得它可以轻松地集成到当前的CNN中,并允许增加深度,而不会有显着的性能损失。

随着Conv网络在计算机视觉领域的商业化,已经进行了许多来改进Krizhevsky等人(2012)[1]的原始架构的尝试,以获得更好的准确性。例如,KSimonyan和AZisserman(2015)[10]提出了VGGNet[10]研究了卷积网络深度对大尺寸图像识别设置的准确性的影响。VGGNet使用具有非常小(3times;3)卷积滤波器的架构来评估网络增加的深度,这表明通过将深度推到非常深(16-19)的重量层,可以实现对现有技术配置的显着改进。GooLeNet[11]是一个代码开源的深层卷积神经网络架构,该架构的主要意义是提高了网络内部计算资源的利用率,从而增加了网络的深度和宽度。

C.实现方式

深度是深度学习的基础,在许多任务中取得了巨大的成功。GooLeNet和VGGNet都使用非常深的卷积神经网络。深度大大提高了网络的学习能力。虽然深度的研究已经成为常识,但仍然不清楚如何有效设计出非常深的卷积神经网络。大多数时候任意添加更多的层次并没有帮助,甚至会使性能恶化。在这项工作中,我们首先提出了一种有效设计非常深的卷积神经网络的实用理论。深卷积神经网络的设计被认为是约束优化问题。目标是最大化目标卷积神经网络的深度,受到两个限制:

  1. 每个层的c值不应该太小,c值是衡量学习更复杂模式的能力的度量。这给出了一个下限,这意味着每层的学习能力应该得到保证。
  2. 特征级别中最上层卷积层的接收区域应不大于图像大小。这表现在上界,并意味着神经元已经看到了整个图像区域,它停止了新的和更复杂的模式,添加新图层的驱动力已不再存在。

其次,我们为多尺度图像输入设计了一个初始模块,并显示了单尺度图像输入的优势。第三,我们开发了各种各样的变换来进行数据增加,包括旋转,以获得旋转不变性质。训练和测试阶段的数据增加有助于降低过拟合风险并改善预测绩效。

Ⅱ.设计一个深层次的神经网络

在本节中,我们将概述我们用卷积神经网络分类浮游生物的模型。首先我们提出一种设计非常深的卷积神经网络的理论;然后介绍多尺度图像输入的初始模块;另外,我们在训练和测试阶段介绍数据增加;最后,我们展示了代表性的网络架构,遵循我们的结构设计理论。

图1.接受场地尺寸的图示。为了清楚起见,所有卷积层

的接收场大小都以matlab风格的阵列表示。例如,40:8:64

代表[40,48,56,64]。输入图像的大小是64x64。在计算接收场大

小时,我们减去烦人的小常数1,以使描述和随后的推导更加简洁。

A.卷积深度

我们提出了深层结构设计的两个约束条件,以保证深度时的性能提升。首先,每层的c值不应该太小,c值是衡量学习更复杂模式的能力的度量。其次,特征层中最顶层卷积层的接收场应不大于图像大小。

  1. 学习能力-第一个约束:当卷积神经网络深度增加而没有抽样时,学习失败的可能性增加。因为检测到的图案的尺寸及其有意义的空间关系逐渐增长。一旦多数输入模式的空间关系超过卷积层的滤波器大小,该卷积层将失去其学习更复杂模式的能力。为了定量测量卷积层的学习能力,我们定义卷积层的c值如下。

其中ktimes;k卷积层中的实数滤波器尺寸为k,如果没有下采样。如果合并步为2,则每次下抽样后都会加倍。接收场大小定义为原始图像中神经元可以看到的最大大小。随着卷积神经网络的深入,它成比例地增长。图1显示了在一个典型的卷积神经网络中,接收场是如何生长的。值得注意的是,在定义中,我们隐含地假设卷积层的接收场大小与输入模式的空间关系的典型尺寸成正比。提出上述讨论,第一个约束:

每个卷积层的c值应该大于最小值t。我们经验发现,t=1/6是所有卷积层的c值的良好下限。

  1. 学习的必要性-第二个约束:在深度卷积神经网络的设计中,有时我们发现任意添加更多的层次并不能帮助甚至恶化性能。随着接受程度的增长,新的和复杂的模式不断涌现。然而,当接收场大小达到图像尺寸,即神经已经看到整个图像区域时,它停止出现新的和更复杂的图案,用于添加更多层的驱动力不再存在。基于上述分析,我们提出了设计非常深的卷积神经网络的第二个约束:

最大卷积层的容纳尺寸应不大于图像尺寸。

这个约束意味着最上面的卷积层的接收场必须在整个图像区域周围。它显示了设计非常深的卷积神经网络的上限。如果最上层的接收场比图像区域小得多,我们可以添加一层以改善我们的目标(即增加深度),而不会违反约束。从另一个角度来看,如果接收场的图像尺寸要小得多,网络将失去学习高级模式或特征的机会,这对于性能来说是最佳的。

  1. 数学公式:我们定义输入参数的符号,这里图像大小为z,滤波器大小为k和最小c值t。深层模型的架构可以由阶段n的总数确定,各个阶段的层数是{ai}。各个阶段由下抽样(步长2)来做除法。例如,n=3,a1,a2,a3=6,3,3代表具有3个阶段的模型,每个阶段的卷积层数为6,3,2层。在两者之间是采取汇集步长等于2的抽样。

给出上述两个限制,基本上深入的目标是使层数的总数最大化,即。第一个约束要求所有层的c值不小于最小c值t。实际的滤波器大小在一个阶段保持不变,而接收场的大小增加,所以一级的最后一层得到最小的c值t。因此,第一个约束等同于确保每个阶段最后一层的c值不小于最小c值t:

其中2sk是阶段s的真实滤波器大小,是阶段s的最后层的接收场大小。t表示最小c值,我们为所有任务设置t=1/6。第二个约束需要最大卷积层的接收场大小不大于整个图像区域:

其中左项表示最顶层卷积层的接收场,2i-1(k-1)是第i阶层的层的接受尺寸增量。而2i-1(k-1)ai是第i级的总接收增量。

目标函数的公式可以通过最大化层的总数来形式表示,承受等式(2)和方程式(3)中的两个约束:

其中n和{ai}都是整数。在某些条件下,最优解是从等式(5)和方程(6)得出,假定图像大小为2(m-1)k/t,并且每个阶层{ai}从整数松弛为正整数。最佳解决方案是:

虽然这种最优解是在某些条件下获得的,但它在一般条件下如何设计有效的深层结构提供了很好的见解。首先,它指导了输入参数给出了多少次下采样。其次,除了第一阶段之外,它显示了各层应尽可能均匀分布的层次。第三,它显示了通过各种过滤器尺寸可以实现的最大深度,基于此,我们可以在各种过滤器尺寸之间进行更好的权衡。

最优解的证明:首先,我们可以很容易地验证解,满足不等式5和3中的约束。其次,假设这是一个解l和bl,...,bl和lle;m。通过线性组合5和3中的不等式,我们可以看出:

其中。这种不等式意味着当lle;m时没有更好的解决方案。第三,假设有一个解l和b1,...,bl和lge;m。通过线性组合不等式5和3,我们可以有

通过重组左项,我们有

从上面的不等式可以看出,当lgt;m时,没有更好的解决办法。

图2.多尺度图像输入架构的初始模块说明。

B.多尺度架构的初始层

浮游生物数据集中所有图像的大小都有不同的大小。在卷积神经网络模型中,有必要将所有图像缩放到固定尺寸,即64times;64。但是很难确定输入图像特征的尺寸,32times;32或64times;64,96times;96,128times;128等。实际上,我们可以在我们的深神经网络模型中选择固定输入图像大小之一,为不同尺度的图像分别训练深层模型。在任何情况下,我们选择每个模型中固定的输入图像大小,总是有一些图像失真或信息丢失。例如,缩放为64times;64的图像可以被正确分类,而由于信息丢失或失真,训练深度卷积神经网络时缩放到128times;128时被错误分类。

灵感来自于GooLeNet[11],为了充分利用图像信息和最小化失真,我们在卷积层的一个模型中开发了多尺度图像的初始模块。初始模块的架构如图2所示。卷积可以改变输出音量的空间大小(特征图的大小)。我们可以计算输出音量的空间大小作为输入音量大小的函数(W和H分别表示图像特征的高和高),这里我们定义卷积核大小(滤波器大小)为K,代表Ktimes;K滤波器。步幅为S,零填充量为P。因此,输出量Fw和Fh的空间尺寸为:

在图2中,我们将第一卷积层的步长值设置为1和2,分别为64个输入源和128个输入源,从等式12和方程13,卷积层参数的设计,我们可以控制输出音量大小,所以我们使输出音量大小从不同的来源到相同的大小。根据这个属性,处理时间关系输入源很方便,表Ⅰ给出了如何配置一个初始模块的例子。模块的最后一层我们连接输出特征图。应用于浮游生物分类的初始模块优于单尺度图像输入模型,我们将在部分中讨论实验结果。

表Ⅰ.配置模块中的变换层

C.数据增强

我们增加了平移和旋转不变量的数据,并增加了数据集的大小。使用各种不均匀的变换,逐渐增加增强强度是减少过度补偿的有效方法。在浮游生物数据集中,使用通过区域拖曳的水下摄像机创建图像,图像中物体的方向可以是任意角度。所以旋转不变是必要的,我们将旋转角度应用于数据增加。在训练和测试期间应用数据增加。在测试阶段,一个图像的输出是增强结果的平均值。图3显示了数据增加的示例,并呈现了转换方法。

D.网络结构

在本节中,我们将介绍根据我们提出的理论设计的网络架构。在这项工作中,我们将深卷积神经网络模型分为两部分:特征和分类部分。当设计一个深卷积神经网络时,通常使用一叠卷积层(特征部分,不同模型中具有不同的深度和宽度),然后是2或3个具有压差的完全连接的层(分类器部分)[12]应用。但是,如果训练集不足够,我们发现这个分类器的这个设计很容易过分。受网络[9]和GooLeNet[11]的启发,我们发现最好用两颗具有小内核的卷积层替换最后两个完全连接的层(6times;6,7times;7或8times;8)。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25433],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。