深度学习-前沿的人工智能研究方式外文翻译资料

 2022-07-26 16:08:16

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


深度学习-前沿的人工智能研究方式

  1. 引言

在近些年来,使机器能够模仿人类大脑在处理信息时表现出的高效性和鲁棒性已经成为人工智能研究的一个核心挑战。在每一天里,人类每一秒都在接受无数多的而且容易被感知的数据,并且他们有能力以一种简单的方式提取出这些数据最为关键的信息。在50年以前,科学家贝尔曼(动态编程理论的提出者和最优化理论的先驱)认为大规模和多维度的数据是很多科学和工程领域应用的基础。一个主要的难点随之产生,尤其是在模式识别应用领域,那就是随着数据量的线性增长,神经网络的学习复杂度以指数的形式增长。贝尔曼把这种情况称之为维度效应(维度灾难)。克服这种效应的主流方法是以一种可以降低数据维度的提前处理数据的方式,并且这种方式必须是高效的,譬如在分类工程领域。这种降低维度的方式我们往往称之为特征的提取。这种主流方式造成的结果是:很多模式识别的智能技术被转换成人类对事物的特征提取。然而这种提取过程具有很大的挑战性并且在不同事物的提取过程中没有统一的标准。而且如果不完整或者错误的特征被提取,则模式识别的结果也会因此具有局限性。

最近神经学领域的科学家把研究的焦点转移到如何以类似人类大脑处理信息的方式来处理数据,这为设计模式识别系统提出了一种新的想法。一个主要的发现是:大脑皮层(具有很强识别的能力)并没有提前得到事物特征的能力,相反,通过很多相互连接的模块,经过一段时间的学习,可以学习到如何去表达这些信息。这个发现激发了深度学习萌芽的发展,深度学习与大脑皮层一样,聚焦于如何通过计算模块的连接学习得到事物的特征。

除了关注现实世界中的三维数据,时间成分也值得我们关注。一段时间的观察可以给观察者传达有效的信息,然而孤立的一个时间节点往往使观察者难以获得有效的信息。因此为时间序列建立对应的模型在信息的有效处理上起到了很关键的作用。以一定的规则对时间序列建模俨然已经成为深度学习系统的一个基本目标。

假设我们实现了一个具有高度鲁棒性的深度学习系统,它将训练一个建立在大量数据集上的多层次神经网络,然后将从这些网络中提取出有用的信息。鲁棒性在这里指的是一种能够接受具有噪声,维度变化,不同光线,不同角度等等的输入。

本文提出了最近十年来主流深度学习方式和相关研究的介绍。值得我们注意的是,这些方式在面对不同的问题时都具有相应的优势和劣势,这取决于它们所应用的情形。因此本文主要介绍这些学习方式的大致情况。卷积神经网络和深度置信网络使我们主要的介绍对象,因为它们在深度学习领域已经取得了很大的进展并且在将来仍然能够大显身手。第二部分介绍了卷积神经网络。深度置信网络的细节将在第三部分中介绍。第四部分提出了另外一些目前被提出的深度学习结构。第五部分简短介绍了深度学习对政府和工业带来的影响。本文对于深度学习潜力的观点仍然值得我们去探讨。

  1. 卷积神经网络

卷积神经网络其中的一种多隐含层的网络结构,它尤其擅长处理二维数据,比如图像和音频信息。卷积神经网络受到TDNN发展的影响,后者通过共享权值的方式减少了网络学习计算的复杂度。事实上,卷积神经网络是第一个成功应用的多层次的且具有鲁棒性的深度学习方式。CNN基于拓扑或架构的选择,利用空间关系来减少必须学习的参数数量,从而在一般的前馈反向传播训练中得到改进。CNN被提出作为一个深度学习框架,这是由最小的数据预处理要求驱动的。在CNN中,图像的小部分(被称为本地接收场)被视为分层结构的最低层的输入。在卷积神经网络中,信息通过不同的层传播,在传播的过程中受到过滤器的影响,过滤器的引入是为了提取到观察数据的特征。该方法提供了移位,缩放和旋转的不变性水平,因为本地接收场允许神经元或处理单元访问诸如定向边缘或拐角的基本特征。

关于神经网络主题的其中一项重要文章描述了CNN在MNIST数据库中分类手写数字的应用。 本质上,输入图像与一组N个小滤波器进行卷积,其中系数被训练或使用某些标准预先确定。 因此,网络的第一(或最低)层由卷积过程的结果的“特征图”组成,具有加性偏差以及可能的特征的压缩或归一化。 这个初始阶段之后是进一步降低维度并为空间偏移提供一些鲁棒性的子采样(通常为2 3 2平均运算)(见图1)。然后,子采样特征图接收加权和可训练偏差,并最终通过激活函数传播。 其中一些变体存在每层只有一个地图或多个地图的相加。

图1 卷积神经网络原理

当加权小时,激活功能几乎是线性的,结果是图像模糊; 其他加权可导致激活输出类似于或或功能。这些输出形成一个新的特征图,然后通过另一个卷积,子采样和激活功能流程序列,如图2所示。该过程可以重复任意次数。应当注意,后续层可以组合一个或多个先前层; 例如,在文献[8]中,初始六个特征图被组合以在后续层中形成16个特征图。如文献[33]所述,CNN通过称为“特征池”(图2中的S层)的方法创建其对象转换的不变性。然而,池化层的特征提取往往取决于网络结构的设计者而不是这个网络的结构。最后,在该过程的最后阶段,将激活输出转发到产生系统的最终输出的常规前馈神经网络。

图2 神经网络结构

CNN中层与空间信息之间的亲密关系使它们非常适合于图像处理和理解,并且它们通常在自主地从图像中提取显着特征方面表现良好。 在某些情况下,Gabor滤波器已被用作模拟人类对视觉激发的视觉响应的初始预处理步骤[10]。 在最近的研究中,研究人员已经将CNN应用于各种机器学习问题,包括面部检测[11] [13],文献分析[38]和语音检测[12]。 CNN最近已经接受了时间一致性目标的训练,以利用视频中发现的帧间框架一致性,尽管这个目标不一定是CNN的具体内容。

  1. 深度置信网络

最初在[14]中引入的DBN是概率生成模型,与传统神经网络的歧视性质形成显著对比。生成模型提供可观察数据和标签之间的联合概率分布,便于对P(观察|标签)以及P(标签|观察)的估计,而歧视模型仅限于后者P(标签|观察)。传统地将反向传播应用于深层序列时,DBN会解决所遇到的问题:(1)用于训练的实质标签数据集的必要性。(2)缓慢学习(即收敛)次数,以及(3)导致局部最优性差的参数选择技术。

DBN是由几层限制Boltzmann机器组成的一种神经网络(见图3)。这些网络被“限制”到单个可见层和单个隐藏层,其中在层之间形成连接(层内的单元没有连接)。训练隐藏的单位以捕获在可见单元处观察到的高阶数据相关性。最初,除了形成关联存储器的前两层之外,DBN的层仅通过定向自顶向下的生成权重连接。由于它们易于学习这些连接权重,因此RBMs作为一个构建块,比传统和深层次的S形信念网络更具吸引力。为了获得生成权重,初始预训练以无监督的贪婪逐层发生,由Hinton所称的对比分歧[15]所实现。在这个训练阶段,矢量v被呈现给可视单元,将值转发到隐藏单元。反过来,然后随机地发现可见单位输入以试图重建原始输入。最后,这些新的可见神经元激活被转发,使得一步重建隐藏的单位激活,h,可以实现。执行这些前进步骤是称为吉布斯抽样的过程,隐藏激活和可见输入的相关性的差异构成了权重更新的基础。训练时间显着减少,因为可以看出,只需要一个步骤即可近似最大似然学习。每个层次叠加到网络上都会改善训练数据的对数概率,我们可以将其视为增加真实的代表性力量。这种有意义的扩张,结合利用的未标记数据,是任何深入学习应用程序的关键组件。在顶层两层,权重被连接在一起,使得下层的输出提供了用于顶层与其存储器内容“关联”的参考线索或链接。我们经常会遇到歧视性表现最为关注的问题,例如在分类任务。在预培训之后,可以通过利用通过反向传播的标记数据来改善辨别性能的DBN。在这一点上,一组标签被附加到顶层(扩展关联存储器)以阐明网络中的类别边界,通过该标签可以学习一组新的自下而上的识别权重。在[16]中已经表明,这样的网络通常比仅通过反向传播训练的网络执行得更好。这可以直观地解释为:DBN的反向传播仅需要在权重(参数)空间上执行本地搜索,与传统的前馈神经网络相比,加速训练和收敛时间。

图3 DBN原理示意图

将DBN应用于MNIST手写字符识别任务时所获得的性能表现显示了前馈网络的显着改进。在引入DBN之后不久,文献[17]中提出的更彻底的分析使用无监督任务和连续价值输入来巩固其使用。 文献[18] [19]中的进一步测试说明了DBN(以及其他深层架构)对增加变化的问题的弹性。文献[20] 最近扩展了DBN的灵活性,引入了卷积深层次信念网络(CDBN)的概念。DBN不固有地嵌入关于输入图像的2D结构的信息,即输入是图像矩阵的简单矢量化格式。相比之下,CDBN利用相邻像素的空间关系,引入了所谓的卷积RBM,以提供与高维度图像很好地缩放的平移不变生成模型。 DBNs目前并没有明确地解决可观察性之间的时间关系的学习,尽管近来已经有一些工作用于堆叠时间RBM [22]或这些被称为时间卷积机的概括[23],用于学习序列。这种序列学习者的应用音频信号处理问题,由此DBNs最近取得了进展[24],为未来的研究提供了一条途径。DBN和CNN的静态图像测试最常见于手写数字和Caltech-101数据库的MNIST数据库(属于101类)。每个架构的分类错误率可以在文献[19] [20] [21]中找到。MNIST数据库在[27]中提供。与DBN相关的近期工作包括在传统DBN中使用堆叠自动编码器代替RBM。这种努力产生了深层的多层神经网络架构,可以用与DBN相同的原理进行训练,但在层的参数化方面不太严格。与DBN不同,自动编码器使用区分模型,输入样本空间不能由架构进行采样,因此更难以在内部表示中解释网络捕获的内容。然而,文献[21] 已经表明,可以堆叠去除利用随机随机腐败的自动编码器进行去噪,以产生与传统DBN相当(而且在某些情况下更好)的泛化性能。单个去噪自动编码器的训练程序对应于用于生成模型(如RBM)的目标。

  1. 近年来提出的深度学习模型

有几种计算架构试图对新皮层进行建模。这些模型受到诸如文献[42]等来源的启发,它试图将图像理解中的各种计算阶段映射到皮层区域。随着时间的流逝,这些模型已经完善;然而,视觉处理的层次结构的核心概念仍然存在。

这些模型引用了Hubel和Weisel的简单复杂细胞组织,其基于对视皮质的研究类似的组织被CNN以及其他深层模型(如Neocognitron [40] [41] [43]和HMAX [32] [45])使用,更多的“显式”皮质模型寻求将其架构与生物学灵感模型的映射更加强大。特别是,他们试图通过诸如时间分析等多种机制来解决学习和不变性的问题,在此时间被认为是学习过程的不可分割的要素。

一个突出的例子是分层时间记忆(HTM)在Numenta公司开发。 HTM具有基于文献[39]中描述的概念的分层结构,并且与其他与皮质电路建模有关的工作具有相似之处。特别关注视觉信息表示,在HTM中,层次结构的最低层级从输入图像的一个小区域接收其输入。较高层次对应于较大的区域(或接受域),因为它们包含表示结构除了跨层次之间的缩放变化之外,对于每个层都有重要的基于时间的方面,其通过对输入图像本身的翻译或扫描而创建。

在学习阶段期间,第一层次编译最常见的输入模式并为其分配索引。时间关系被建模为从一个输入序列到另一个输入序列的概率转换,并使用图分割技术聚类在一起。当这个阶段的学习结束时,后续(第二)层连接当前观察到的来自其子模块的输入的指标,并将最常见的连接学习作为字母表(另一组共同的输入序列,但在一个更高层次)。然后可以将较高层的表征作为反馈提供给较低级别​​的模块。较低级别反过来将该更广泛的表示信息纳入其自己的推理公式中。在层次结构的每一层重复该过程。网络训练后,使用贝叶斯信念传播算法执行图像识别,以识别给定层次结构的最高层(相应的)信念的最可能的输入模式到最广泛的图像范围)。文献中提出的与HTM相似的其他架构包括采用两阶段空间聚类和时间聚类的自组织图和Miller&Lommel的分层绗缝SOM,以及Behnke神经抽象金字塔[48]。

作者最近介绍的用于实现鲁棒信息表示的框架是深空间时间推理网络(DeSTIN)模型[26]。在这个框架中,常见的皮层电路(或节点)填充整个层次结构,每个节点独立运行并与所有其他节点并行。该解决方案不限于逐层培训程序,使其对并行处理平台上的实现非常有吸引力。节点通过使用置信状态结构来独立地表征模式,该信念状态结构随着层次结构被呈现数据而被递增地更新。

这个规则由两个结构组成:一个表示系统状态对于观察段P(观察|状态)的可能性,另一个表示状态到状态转换的可能性来自上面的反馈,P(后续状态|状态, 反馈)。第一个结构是无监督的,纯粹是通过观察驱动的,而第二个结构是调制第一个结构,将动力学嵌入到模式观察中。精确地应用增量聚类来估计观测分布,同时基于频率估计状态转换。 有人认为,该计划的价值在于其简单性和重复性结构,促进多式联运和简单的培训。

  1. 深度学习的应用

已经有几项研究证明了深入学习方法在各种应用领域的有效性。 除了MNIST手写挑战[27]外,还有面部检测应用[10] [51],语音识别和检测[12],一般对象识别[9],自然语言处理[24]和机器人。 数据扩散和丰富多样性感官信息的现实无疑是许多军事和民用应用中的挑战和反复出现的主题,如复杂的监控系统。 因此,对深度机器学习的兴趣并不局限于学术研究。最近,国防部高级研究计划局(DARPA)已经公布了专注于深度学习的研究课程[29]。 包括Numenta [30]和Binatix [31]在内的几个私人组织将注意力集中在将深度学习技术商业化到广泛领域的应用上。

  1. 深度学习未来的发展

深层机器学习是一个积极的研究领域。 在改进学习过程中,仍然需要做大量工作,

全文共15962字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144567],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。