卷及神经网络笔记外文翻译资料

 2022-12-03 14:40:35

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


卷及神经网络笔记

Jake Bouvrie

生物和计算中心学习脑与认知科学系的麻省理工学院

Cambridge, MA 02139

jvb@mit.edu

11月22日2006年

1 解释

本文讨论的推导和实现卷积神经网络(cnn)(3、4),其次是一些简单的扩展。卷积神经网络比权重涉及更多的连接;结构本身实现正则化的一种形式。此外,一个卷积网络自动翻译提供了某种程度的不变性。这种神经网络的假设,我们希望学习滤波器,在数据驱动的方式,作为一种手段来提取描述输入功能。我们提出的推导是专业二维数据和卷积,但可以没有任意维数的多少额外的努力扩展。

我们开始与完全连接网络的经典算法的描述,其次为滤波和采样层二维卷积神经网络的反向传播更新的推导。在整个讨论过程中,我们强调效率的实现,并给小的MATLAB代码片段伴随方程。写作效率有效代码的重要性的时候,CNN不能被夸大。然后,我们转向的话题,学习如何结合功能图从以前的层自动,特别考虑,学习稀疏组合的功能图。

免责声明:这个粗糙的注意可能包含错误,夸张和虚假索赔。

  1. Vanilla通过完全连接反向传播的网络

在文献中你可以找到典型的卷积神经网络,早期的分析由交替的卷积和子采样操作,而最近的年龄结构由一个通用的多层网络:最后几层(最接近输出)将完全连接的一维层。当你准备通过二维特征映射为一维的完全连接网络的输入,通常是很方便的就将所有存在于所有的输出映射成一个长的输入向量的特点,我们也回到了Vanilla的反向传播。将描述标准向后传递算法到专门的算法的卷积网络的情况下(例如在[ 1 ]的细节)。

2.1 前馈通道

在推导如下,我们将考虑平方误差损失函数。对于一个多类问题的C类和n个训练的例子,误差如下

这里的是k维度关于n模型的对应标签,并且是相似的值关于k输出层单元在返回对于n输入模型。对于多元分类问题,标签将很典型的被组织为“一对c”码当k个元素关于是正数如果模型xn属于类型k。余值关于全局关于tn将被变为零或负数依靠选择关于你的输出激活函数。因为误差超过整个数据集知识一个总和超过个人的误差在每层,我们将讨论反向传播会依靠单独的层,叫做第n对一:

(1)

伴随普通完全连接层,我们可以计算的衍生物E相对于网络权重使用反向传播规则的以下形式。让L表示当前层,输出层指定为层L和输入“层”指定为第1层。定义本层的输出是

(2)

在输出激活函数f(.)是普通地选择成为逻辑(sigmoid)函数分或双曲函数。逻辑函数的取值为,然而双曲线的取值为。所以虽然双曲线函数的输出接近零,输出关于sigmoid将成为非零在平均值中。然而普通化你的训练数据成为中位数为0和平均差为1的特性可以经常增强收敛在梯度下降时[5]。伴随普通化的数据集合双曲线函数是更好的。Lecun建议a=1.7159并且b=2/3,所以点的最大值非线性发生在并且会避免饱和在训练期间如果希望训练被归一化的标签应该设置值为。

2.2 向后传递

误差是我们传递到后部通过网络可以被认为敏感度对于每个单元依靠扰动的偏度,这就是所说的,

(3)

因为在这里,所以偏度敏感度和演化关于误差依靠单元的综述输入是等值的。这是衍生物是向后传递来自更高层到更低层,使用一下等式:

(4)

这里的“”表示元素方式的乘法,为了误差函数(1),敏感度为了输出层神经元会稍微的不同格式:

最后,三角准则关于更新权重的分配给神经元只是拷贝输入的神经元,被限制在神经元的三角中。在向量格式,这是被计算成为向外乘法在输入向量之间(那些输出来自先前的层)和向量的敏感度:

(5)

(6)

随着模拟表达式为了偏度的更新式子(3)。事实上经常有学习率参数对于每个权重()。

3 卷及神经网络

通常的卷积层穿插子采样层来减少计算时间和逐步建立进一步的空间和条件数值不变性。一个小的子采样因子是可取的但为了保持特殊性同时。当然,这种想法并不新鲜,但概念既简单又有力。哺乳动物的视觉皮层及其模型[ 12,8,7 ]严重地借鉴了这些主题,并在过去的十年中,或使这些相同的设计范式可以发现在一些不同的动物的皮层的初级和带听觉区的听觉神经科学[ 6,11,]。层次分析和学习架构可能仍然是成功的关键,在听觉领域。

3.1 卷积层

让我们向前推导出反向传播更新的卷积层在网络中。在卷积层,上一层的特征映射卷积可以学习的内核和通过激活函数形式的输出特性图。每个输出的地图可以结合卷积多输入图。总的来说,我们有

表示可选的输入图,并且卷积是关于空白便捷的处理当在MATLAB中运行时。一些常见的选择,f输入地图包括所有对或三元,但我们将讨论如何学习下的组合。每个输出图给出一个加偏置b,然而对于一个特定的输入输出地图,将地图与不同的内核的卷积。也就是说,如果输出地图j和地图K总和输入地图I,然后应用到地图I的内核是不同的输出地图J和K。

3.1.1 计算梯度

我们假设每个卷积层l是跟随下降取样层l 1的。像狗传递算法认为为了计算敏感度给单元l,我们应该首先计算每层的合对应于单元,这个单元北脸解每个单元关于利益在最新层l,并且乘每个连接的权重定义于l 1层。我们然后层他们的量通过衍生关于激活函数的更新在最近层每个输入u中。为了卷积层跟着向下取样层,一个像素在下一层搭配敏感度反应与阈值关于像素在卷积层的输出图中。所以每个单元在图层l练级只有一个单元在反应图在层l 1。去计算敏感度在层l很效率。我们可以向上取样向下取样层的特征图去构成相似大小的如卷积层的图,然后只需要乘向上取样图来自层l 1伴随着激活函数图来自层l。权重定义在向下取样层等于。所以我们只要圈定范围再前一步的结果通过去完成计算。我们可以重复相同的计算对于每个图j在卷积层中,匹配他对应反应图在子取样层。

这里表示向下取样操作只是铺垫每个像素在输入水平和垂直n词在输出层如果子取样层子取样通过因素n。正如我们将讨论的,一种可能的方法是计算这个函数更效率是使用Kronecker乘法:

现在我们有特征关于给的图了,我们可以马上计算偏度的梯度通过简单的求和通过全局

最后,梯度关于核权重被计算使用向后传递,除了这个例子相同的权重需要分享连接。我们将求个梯度为了供给权重整体的连接,这个连接使用了权重,只看做我们做的偏度:

(7)

这里是一个批次在中可以被乘元素通过在卷积为了计算元素在(u,v)在输出卷积图。首先他可能出现,我们需要去小心地保持跟踪这个批次在输入图反应与那些像素在输出图,但是等式(7)可以被运算只需要一行在MATLAB使用卷积通过空域的叠加:

这里我们旋转delta;为了执行互相关图像而不是卷积和旋转输出,因此当我们执行卷积的前馈,内核将预期的方向。

3.2 子样本层

二次抽样层产生向下取样版本的输入图。如果有N个输入图,然后会有N个输出图,虽然输出图将会更小。更正式,

这里down(.)表示子样本函数。通常这个函数求和每个独立的ntimes;n块的输入图像,输出图像小n次沿着两个空间维度。每个输出映射给出自己的乘法偏差beta;和添加剂偏差b。我们也可以简单地扔掉其他样本图像中【10】。

3.2.1 计算梯度

在这里不一样的是计算敏感图。一个我们已经获得的,唯一可以学习的参数我们需要更新的是偏度参数和b。我们将假设向下取样层围绕着之前所包含的卷积层。如果层跟着向下采样层是全连接层,然后敏感图为了子采样层可以被计算伴随着vanilla向后传递等式已经介绍在章节2。

当我们试图计算内核3.1.1节的梯度,我们必须找出哪些补丁在输入对应于给定像素的输出映射。这里,我们必须找出哪些补丁在当前层的敏感性地图对应于给定像素的下一层地图的敏感性来应用一个看起来像三角洲递归方程(4)。当然,权重相乘输入补丁和输出像素之间的连接完全权重(旋转)卷积的内核。这也是有效地使用卷积实现:

和之前一样,我们旋转内核卷积进行互相关函数。然而,请注意,在本例中,我们需要“完整”卷积边界处理,再次借MATLAB的命名法。这个微小的不同让我们处理便捷情况小心而且效率的,在这里输入的数量对于第l 1层单元没有完全的格式n*n卷积核。在这种情况,“全”卷积将自动天聪失去的输入为零。就这而言我们已经准备好计算梯度为了b和。再次添加的偏差只用求和所有的在敏感图中的元素:

多元的偏差将理所当然的包含原始向下取样图的计算在最近的层中在前向反馈的过程中。因为如此,有一个有点就是可以保持这些图在前向反馈时的计算,所以我们不需要再次计算他们在向后反馈中,让我们定义它为

然后梯度对于能得出

3.3特征图的学习组合

通常,它有利于提供一个输出地图包含一个求和几个犹如不同的输入地图。在文献中,输入地图融合在一起形成一个给定的输出映射通常手工选择。然而,我们可以尝试这样的组合在训练中学习。让表示输入图i的权重当形成输出图j时。然后输出图j可以这样获得

约束为

这些约束可以被使用通过设置变量等式给softmax超过一组非约束,潜在的权重:

由于每个权重集为了修正j单独的关于所有其他集为了其他的j,我们可以考虑更新为了新的图并且抛弃下标j。每张图被更新以相似的方式,除了不同j指数。

衍生物关于softmax函数如下

(8)

然而衍生关于1依靠变量在第l层是

这里是敏感图相应于输出图的输出u。并且卷积是“空值处理”类型导致结果同敏感图的相同。我们现在可以使用链式解法去计算关于误差函数的梯度依靠潜在的权重:

(9)

(10)

3.3.1 稀疏的组合

我们同样可以尝试引入稀疏约束到分布的权重中为了获得的图通过正规惩罚给最后误差方程。这样做时,我们会刺激一些权重成为零。这种情况,只有少数输入图可以影响输出图,正如他们的反面。让我们写出误差的一种形式

(11)

并且找到关于正则项的分布对于梯度为了权重。用户定义的参数控制折中最小符合关于神经网络对于训练数据,并且保证权重被考虑在正则项很小根据1-norm。我们将会再次讨论只有权重对于给的输出图和去掉的下标j。首先我们需要

(12)

每个地方出了原始的地方。结合这个结果给式子(8)

(13)

(14)

最后的梯度为了权重当使用惩罚函数(11)时可以被计算使用(13)和(9):

3.4 使用MATLAB快速实现

与交流网络业者和卷积层主要的计算瓶颈是:

1.在前馈传递:向下采样卷积层的输出图

2.在反向传播:向上采样关于更高的子采样层的三角洲的匹配更底低的卷积层 的输出图的规格

3.应用关于sigmoid和衍生物

执行卷积在前馈和反馈阶段期间也计算瓶颈,但假设有效地实现了机器人的二维卷积常规,没有什么我们可以进一步做的了。

其中有趣的是虽然使用MATLAB的建造图片过程循环处理向上采样和向下采样操作。为了向上采样,函数Imresize将做这个任务,但是主要在高处实现。一种快速可以选的方案是使用Kronecker工具函数kron,伴随矩阵被向上采样,和一个矩阵。这可以成为有序的快速的当他实现向下去采样步骤在反馈过程中时,imresize不会提供选项对于向下采样通过求和n对n阈值。n最近邻域算法将被一种关于像素的障碍代替通过原始方框中的其中之一像素。一种可替换的方法是使用blkproc对于每个独特的框,或者一些组合关于im2col和colfilt。然而这两种可选的方法值计算什么事需要的而已。替代使得用户定义过滤过程函数应用与顶头。一种更快的可选方法再这个案例是卷积图片使用其中的一块矩阵。并且只取每个其他全部使用用标准的(i.e y=x(1:2:end,1:2:

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25429],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。