英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料
深度储层计算
摘 要
本章概述了向深度储层结构扩展计算的最新进展,这是神经网络界日益关注的研究热点。在此背景下,我们重点描述了基于多个储层层次组成的深回声状态网络的主要特征。实验的目的是提供一个有用的参考,指导应用程序进一步开发这类高效并且有效的方法,以统一的描述和分析处理时间序列和更复杂的数据。
关键词 深层储层计算;深度回声状态网络;深度回归神经网络
介绍
近年来,对时间数据的深度神经网络架构的研究已经成为神经网络社区的一个有吸引力的研究领域。分层组织递归神经网络(RNNS)领域的研究表明,深度RNNS能够形成内部状态是时间信息的多个时间尺度表征。这是一个非常理想的功能,例如,在处理复杂的任务时,特别是在与人类认知相关的领域,如语音和文本处理。此外,研究分层RNN模型的兴趣也发现了强大的动机,从不同的,但相关的计算神经科学的角度,我们知道,一个“深度”分层组织的复发神经单元是新皮质的主要模式。从这个意义上说,深度RNN结构中的信息处理具有很强的生物动机。
最近,在随机神经网络方法的保护伞下,储层计算(RC) 的范例为深度RNN的分析和设计提供了一个新的视角。特别是在离散时间储层背景下,引入深度回声状态网络(DeepESN)模型这使得研究分层RNN结构的特性可以独立于学习方面。值得注意的是,这些研究指出,深度RNN中具有多时间尺度动态的结构化状态空间组织是回归神经模型的组成性质所固有的。因此,对深度回声状态网络模型研究的兴趣是双重的。一方面,揭示了层状RNN的状态动力学的内在性质。另一方面,它能够为时间数据设计有效训练的深度神经网络,能够在复杂任务中改进以前的最先进的结果。
从历史的角度来看,在Galliicchio等人明确引入深度ESN模型之前,分层RC模型的初步研究针对特别构建的体系结构,其中不同的模块被训练以发现合成数据上不同尺度的时间特征。此外,在语音处理领域,由多个ESN模块组成的自组网模块化网络也被研究。最近,在RC区域的时间序列基准上对多层RC网络的优势进行了实验研究。与上述作品不同,下文考虑的深度ESN研究旨在解决作为建筑RNN设计因素的分层的真正本质的一些基本问题。这些基本问题可以概括如下:
(1)为何要叠加经常单位?
(2)在RNN中分层的内在架构效应是什么(独立于学习)?
(3)我们可以使用有效训练的RC方法扩展深度在RNN设计中的优势吗?
(4)我们能否利用这种分析的见解来解决深度循环模型的自动设计(包括基本参数,如建筑形式、层数、每层的单元数等)?
本章旨在概述针对上述关键研究问题的最新进展,并提供深度ESN研究的最新进展和前景。本文的其余部分安排如下。第二部分从体系结构和动力系统的角度介绍和讨论了深度回声状态网络模型。第三部分总结了深度回声状态场研究的进展,第四部分回顾了其他分层储层模型的进一步发展。最后,在第5节得出结论。
深回声状态网络
本节旨在介绍深层RC模型的主要特点。特别地,我们关注离散时间的储层系统,即我们采用回声状态网络(ESN)的形式来构建我们的分析。在此背景下,我们在2.1节中阐述了深层储层构型的主要特征,而在2.2节中,我们从动力系统的角度分析了深层储层的行为。
体系结构
对于标准的浅层回声状态网络模型,一个深度回声状态网络由一个动态的储层系统和一个前馈读出部分组成,该系统将输入历史嵌入到一个丰富的状态表示中,并利用储层提供的状态编码来计算输出。至关重要的是,深度回声状态网络的储层被组织成一个堆叠的循环层的层次结构,每一层的输出作为下一层的输入。在每个时间步骤t中,状态计算是沿着循环层的管道进行的,从直接由外部输入提供的第一个循环层,一直到储层结构中最高的一个循环层,即离外部输入最远的一个。深层ESN的层状储层结构如图1所示。在我们的符号中,我们用表示外部输入维度表示储层的数量,为了简单起见,我们假设每个储层有复发性单位。我们用isin; 表示时间步长t时的外部输入,(t)isin;是储层层i在时间步长t时的状态。一般我们用上标(i)表示有一项与堆栈中的第i个储层有关。在每个时间步长t,各储集层状态的组成,即x(t) = ((t),hellip;, (t))isin; ,给出网络的全局状态。
假设每层中都有泄漏积分器储层单元,为了便于表示,省略了偏差项,储层中的状态转换函数可以描述如下
图1深回声状态网络的储层结构
而对于连续的层I gt; 1,状态更新由
在上述公式1和2中,isin;表示输入权值矩阵,isin;(对于igt;1)是层(iminus;1)到层i的层间连接权值矩阵,isin;为第i层的递归权矩阵,isin;[0,1]为第i层的泄漏率,f为递归储层单元单元应用的激活函数(通常采用tanh非线性)。
备注1 根据公式1和2中所介绍的数学描述,我们可以看到,标准(浅)回声状态网络模型可以看作深度回声状态网络的一个特例,它只考虑单个储集层,因为=1.
有趣的是,如图2所示,我们可以观察到,深度回声状态网络(DeepESN)的储层架构可以相对于浅层对应的储层架构进行表征,方法是通过深层储层计算将其解释为ESN/RNN的约束版本。
经常性单位的总数相同。具体来说,为了得到一个分层的体系结构,有以下条件:
bull;从输入层到储层在1以上的所有连接都被移除(影响外部输入信息被逐渐远离输入层的递推单元看到的方式);
bull;所有从上层到下层的连接都被移除(这会影响信息的流动和网络状态子部分的动态);
bull;管道中每一层到更高层的所有不同于下一层的连接都被删除(这影响了信息流和网络状态子部分的动态)。
上面提到的条件,以图形方式对应于分层,已经在我们之前的Gallicchio等人的工作(2017b)中进行了明确和广泛的讨论。在此观点下,深度回声状态网络架构可以看作是对对应单层回声状态网络的简化,从而减少了重复权值的绝对数量,假设每层储层全连通,是每层重复单位数和总层数的二次型。然而,如上所述,需要注意的是,这种特殊的结构组织影响了时间信息由分层存储库的不同子部分处理的方式,这些子部分由与外部输入渐行渐远的循环单元组成。
此外,与标准的ESN/RNN不同,深度ESN中连续层之间的状态信息传输不存在时间延迟。对此,我们可以作以下考虑:
bull;层间操作的顺序性方面已经存在,并在以前关于深度RNN的文献中进行了讨论,这实际上激发了对分层结构在这种分层组织的循环网络结构中内在作用的研究:
bull;这种选择允许模型在每个时间步骤以“深度”时间方式处理时间信息,即通过层次化组成多层次的经常性单位;
bull;特别要注意的是,在状态计算期间,将(双曲正切)非线性单独应用于每一层,不允许通过一个等效的浅系统来描述深度回声状态网络动力学。
基于以上的观察,一个主要的研究问题自然而然地产生了,并推动了第3节所报道的研究的动机,即在深度递归模型中控制分层结构和分层表示的所描述的约束如何以及在多大程度上影响它们的动力学?
在输出计算方面,虽然储层与输出模块之间的连通性模式可以有不同的选择,一个典型的设置包括在每个时间步t上补给所有储层状态(即全局状态的深度ESN)到输出层,如图3所示。需要注意的是,这种选择使读数组件能够对不同层位的动态数据赋予不同的权重,从而可以利用储层堆栈中潜在的状态表示变化。在此设置下,表示为
图2 深度回声状态网络作为浅层储层的约束版本的层状储层结构。与重复使用单元总数相同的浅层情况相比,在堆叠的DeepESN架构中,以下连接被移除:从输入到高度gt; 1的储层水位(蓝色虚线箭头),从高到低的储层水位(绿色虚线虚线箭头),从一级的每个储层到高于一级的所有储层(橙色虚线箭头)
输出空间的大小,在线性读出的典型情况下,时间步长t时的输出计为
其中isin; 是适用于训练集的读数权矩阵,通常通过伪反演或脊回归等直接方法以封闭形式存在。
在标准RC框架中,所有的储层参数,即矩阵和中的权值,在Echo State属性给出的稳定性约束下初始化后不被训练。这方面与叠层储层系统动力学状态分析有关,具体内容见2.2节。
图3深度回声状态网络的读出组织,在每个时间步长,所有层的储层状态作为输出层的输入
深部储层动态与回波状态性质
从动力系统的角度,从输入驱动的离散时间非线性动力系统的角度来分析深度回声状态方程的储层叠置计算。特别地,我们可以看到,由外部输入驱动的第一层动力学受函数的控制:
每个连续的动态行为层gt; 1是由上一层的状态的管道,这决定了x的依赖(通过多个非线性)(i)从美国(t)在前面的层次结构的计算时间步我从第一层到水平,即(tminus;1),hellip;,(tminus;1),以及从输入。用函数F (i)表示如下:
注意,对于式4和式5,状态转换函数的具体形状分别在式1和式2中用泄漏积分器储层单元来描述,并用矩阵和中的权重值进行参数化,为i=1,...,.
当我们将深度ESN的全局状态考虑为层次结构中所有层次的储层状态的组成时,即=isin;。我们可以看到,状态动力学是由一个全局状态转移函数F控制的,这个函数可以定义为各层应用函数的组合,即。在每一个时间步t,函数F根据外部输入信息和深部储层前一个状态,计算整个深部储层系统的下一个状态,如下:
(6)
在标准的浅钢筋混凝土结构的情况下,为了避免训练储层连接,由等式6所描述的深层储层系统的状态动力学应该表现出全局渐近(Lyapunov)稳定性,如回声状态属性(ESP)所规定的。Gallicchio和Micheli (2017a)对这方面进行了详细分析,将众所周知的ESP代数条件推广到深层储层。在这里,我们回顾一下Gallicchio和Micheli 中的定理1和定理2,它们为深度ESN的初始化提供了实用的方法。注意,与浅层情况一样,在分析深层储层时,我们将假设所有层的输入空间和储层状态空间都是紧集。
定理1 (深度回声状态方程ESP的必要条件)考虑一个深度回声状态方程,其动力学规则为方程6,根据方程1和2中的泄漏积分器储层单元实现,并假设零序列是系统的一个允许输入。然后由下式给出ESP保持的必要条件
其中rho;(·)表示谱半径算符(即其矩阵辐角的最大绝对特征值),I是规模的单位矩阵。
定理2(深度回声状态方程ESP的充分条件)考虑一个深度回声状态方程,其动力学规则为方程6,根据方程1和方程2中的泄漏积分器储层单元实现,激活函数为tanh非线性。如果深度回声状态网具有全局收缩动力学,则满足ESP。因此,有一个ESP保持的充分条件:
式中为第i层位状态转移函数的Lipschitz常数,其计算公式为:
其中是由定义在相应状态空间上的范数导出的矩阵范数。
定理1和定理2均被Gallicchio和Micheli 证明。
然后,在DeepESN中初始化储层权重的一个简单方法是运行domly,绘制和中的元素,例如,从[minus;1,1]中的均匀分布,然后重新缩放它们,以满足定理1或定理2中表示的条件之一。对于标准浅层储层,在实际应用中充分条件往往限制过多,深度回声状态网络应用中通常采用必要条件。
备注2 定理1和定理2所表达的深度回声状态方程ESP的充要条件推广了标准RC文献,分别由式7和式9得到,考虑了只有一层的储层结构,即 = 1时。
有趣的是,我们可以得到的公式定理1和2的条件,是逐步增加更多的储层的架构DeepESN不能低的稳定度(最大值操作Eq.7)或李普希茨常数(取最大值Eq.8)全球深部储层系统。
这本质上转化为更深层次的复发性神经系统的倾向,显示出更长的记忆跨度,即使在缺乏复发性连接训练的情况下,Gallicchio等人对深度回声状态的局部Lyapunov指数进行了更深入的研究,也证实了这一观点。特别是Gallicchio等人给出的分析结果表明,在相同数量的重复单元条件下,较深的储层结构更容易在稳定(或临界)边缘附近移动,这是一个接近稳定-不稳定过渡的动态状态,其中复发性神经系统对其驱动输入信号形成更丰富的时间表征。
进步
在本节中,我们简要介绍了深度回声状态网络模型的最新研究进展。下文所描述的工作,通过对引言中总结的关键问题的阐述,对深度ESN的意义提供了总体支持,并批判性地讨论了深度ESN的优势和不足。关于深度回声状态网络研究进展的最新概述也可在Gallicchio和Micheli 中获得。
多个时间尺度表示。在Gallicchio等人中已经介绍了DeepESN模型,它扩展了Gallicchio和Micheli的初步工作。通过实证研究,这些论文中的分析揭示了由DeepESN分层储层架构开发的时间数据表示的层次结构。具体地说,储层的叠层组成可以使时间信息具有多个时间尺度的表示,自然地沿着网络的层次排列。此外,分层也被Gallicchio等人证明是一种有效的方法,可以增强网络设计中已知RC因素的效果,包括通过固有塑性进行无监督储层适应。从状态熵和存储器的角度分析了所产生的影响。
多频表示。Gal- licchio等人通过频率分析研究了Deepesn中的层次结构状态表示,具体考虑了具有线性激活函数的递推单元的情况。结果指出深度回声状态的固有多频率表示,即使在简化的线性设置中,逐步高的层集中于逐步低的频率。深度RC方法的潜力也在预测实
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[604224],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。