动态学习率在线BP训练的全局收敛性外文翻译资料

 2022-08-23 15:35:29

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


动态学习率在线BP训练的全局收敛性

摘要:在线反向传播(BP)广泛的在科学研究和工程应用。而影响在线BP训练的表现其中的关键之一就是学习率。本文提出了一种新的动态学习率,它是基于最小误差的估计。基于动态学习率的在线BP训练方法的全局收敛理论有待进一步的研究学习。同时事实证明:(1)误差序列收敛到全局最小误差;与(2)权值序列收敛到误差函数达到全局最小的不动点。所得的全局收敛理论为在线BP训练方法的成功应用奠定了基础。文中给出了算例以支持理论分析。

关键词:反向传播(BP)神经网络,动态学习率,全局收敛性分析,在线BP训练程序。

1.介绍

采用在线反向传播(BP)训练方法训练的前向神经网络已广泛应用于科学研究和工程应用的各个领域[1]-[4]。在在线BP训练过程中,所有的训练实例都按顺序(逐个)给与学习系统,每次只学习一个训练实例。学习到的示例可以从给定的训练示例中随机或循环地选择,但保留在训练数据集中。在某些应用中,在线BP训练过程通常优于批学习,因为在一个训练示例被输入后,网络权值会立即更新[5],[6]。因此,这种在线BP训练方法的收敛性值得仔细研究。近几十年来,人们对各种神经网络训练算法进行了大量的收敛性分析。最近,Ho等人[7]研究了基于故障/噪声注入的径向基函数网络在线学习的随机收敛性。Chen等人[8]提出了一种基于最小误差熵准则的ADALINE训练均方收敛分析的统一方法。在[9]中分析了基于扩展卡尔曼滤波的递归神经网络训练的收敛性。对于前馈神经网络最经典的训练算法之一的在线BP训练过程,许多研究者对其进行了收敛性分析,得到了一系列的收敛结果。文献[10]-[16]研究了在线BP训练过程的概率收敛特性,随后进行了一系列确定性收敛分析[17]-[27]。在[18]、[19]、[21]、[23]、[24]和[27]中讨论的神经网络是在没有隐藏层的情况下实现的,因此具有非常特殊的形式。虽然[17]、[20]、[22]对隐层前馈网络进行了进一步的研究,但所得结果只得出了误差函数梯度序列的收敛性,而没有证明权值序列本身的收敛性。最近,徐等人。[25]揭示了权值序列(称为强收敛)的收敛性,忽略了学习率设置的所有后验假设。同时,文[25]在比文[17]和文[22]更宽松的条件下,证明了误差函数梯度序列(称为弱收敛)的收敛性。值得注意的是,以上的研究都集中在学习率不变或学习率递减的在线BP训练过程上,即学习率eta;m满足任一eta;m=alpha;,其中alpha;是常数([11],[13]),或者eta;m趋向于0,m趋向于无穷大,故得式([28]如eta;m = 1/m)。选择学习率是影响在线BP训练过程应用性能的主要因素之一。虽然恒速学习算法简单易行,但在大多数情况下不能保证在线BP训练过程的收敛性。因此,大多数在线BP训练过程的收敛性分析都是采用递减学习率的方法进行的。根据学习率递减的性质,已经建立了一些收敛性结果。然而,递减学习率通常被设置为一个最终收敛速度慢的时变序列,即eta;m仅随迭代次数的增加而减小到零,而与每次迭代所获得的误差无关,这是在线BP训练的优化目标。从另一个角度来看,尽管已经提出了其他启发式方法来设计基于误差演化的自适应学习率[29],但在线BP训练过程的收敛性却没有提到。

在本篇论文中,我们首先提出一种新的动态学习率设置方案,根据最小误差的估计值动态调整eta;m。该动态学习率利用了训练过程中的误差信息,在实际应用中更加合理可靠。它可以被认为是一个关键的泛化,允许更广泛的学习率类应用于在线BP训练过程。在此基础上,我们将利用所提出的动态学习率来研究在线BP训练过程的全局收敛性。将证明:(1)误差序列收敛到全局最小误差,这显然意味着文[25]中的弱收敛结果;(2)权序列收敛到误差函数达到全局最小的不动点,这使得文[25]中的强收敛结果在较弱的条件下更为尖锐。本文的其余部分安排如下。在第二节中,我们用动态学习率数学地描述了在线BP训练过程。第三节给出了本文的主要结果,第四节给出了主要结果和一些有用引理的严格证明,第五节给出了性能评价,第六节对本文进行了总结。

  1. 基于动态步长规则的在线BP训练

在不丧失一般性的情况下,我们首先介绍了一个具有p个输入、n隐藏神经元和1个输出神经元的单隐层前馈网络。表示为V=(vij)ntimes;p = (v1, v2,...,vn )T连接输入层和隐藏层的权重矩阵e vi = (vi1, vi2,...,vip ) (i = 1, 2,..., n),且由y omega; = (omega;1, omega;2,...,omega;n)T 连接隐藏层和输出层的权重向量。所有隐神经元和输出神经元使用相同的连续差分激活函数,用g:R→R表示。定义以下向量值函数:G(s) = (g(s1), g(s2), . . . , g(sn))T forall;s isin; Rn,对于任意输入t x isin; Rp,隐藏层的输出为s G(V xminus; theta; ),当e theta; = (theta;1, theta;2,...,theta;n)T现于隐藏层,使Vtilde; = (V,theta;) isin; Rntimes;(p 1)与xtilde; = (x T , minus;1)T isin; Rp 1后我们可得G(V x minus; theta; ) = G(Vtilde; xtilde;)因此,为了简单起见,我们可以考虑theta;=0。同样,整个网络的输出可以写成y = g(omega; · G(V x)) = g(omega;1g(v1x) omega;2g(v2x) ··· omega;n g(vn x))。当e omega;·G(V x)表示omega; G(V x)。使作为训练设置的示例。对于任意omega; isin; Rn V isin; Rntimes;p神经网络的误差定义为:

此时

称为个别错误函数。训练神经网络的目的是在神经元之间寻找一组最优权值,从而使输出yj尽可能接近目标tj(j=0,1,hellip;,j-1),这相当于最小化误差函数E(omega;,V)。BP训练方案是应用梯度下降法,结合误差函数梯度的BP算法来估计最优权值的一种方法[3]。

E j,omega;(omega;, V )E j,V (omega;, V )分别表示每个误差函数Ej(omega;,V)相对于omega;和V的梯度。我们有

利用上述符号和方程,在线BP训练过程可表述为以下迭代(见[25])

(omega;,V)表示矩阵[omega;:V]。上述迭代可以等价地表示为矩阵形式

此时是个别误差函数E j(omega;,V)相对于(omega;,V)的梯度。在下面,我们使用矩阵的范数(omega;,V),它定义为与和

在步骤(1)中,应用了在线梯度方案。具体地说,在每次迭代中,权重序列{(omega;m J J,vmj J)}通过一系列J步递增地改变。每个步骤是与单个训练示例相关联的单个误差函数E j(omega;,V)的梯度迭代,并且每个单个误差函数有一个步骤。因此,一次迭代可以看作是J次迭代的循环。在本文中,我们只考虑按固定顺序选择训练示例的情况,即从x 0到x J-1,依次选择。这里,eta;m是过程的学习率,在J个子迭代的每个循环之后更新。有人指出,关于学习率eta;m的一个关键问题往往是基于梯度的算法成功的关键[28],[30]。因此,设计一个更合理、更合适的学习速率,保证在线BP训练过程的收敛性,是本文研究的重点。在引入新的动态学习率之前,我们首先提出一个假设。

假设1:

其中C是正标量,Elevm是E*的估计值,根据观测到的函数值E(omega;m J,V m J)依次改进。得:

可调参数满足

可调参数是控制递减误差的关键,为达到最小全局误差,Elevm应当满足

此时比较那么,比较(3)和(5),我们明显有delta;m→0。比较(3)和(6),我们知道delta;m应该是正的。这就是为什么需要第一个条件“delta;m→0 ”。另一方面,delta;m的减小不能太快,否则,随着m的增大,delta;m会变得很小,这对误差序列{E(omega;m J J,vmj J)}的减小可能影响很小。因此,为了避免这种情况,第二个条件由此可得。

备注1:建议的动态学习率(2)–(4)源自[28]中引入的动态步长规则,该规则由,当f(x)与flevk是优化问题min f(x)的最优函数值flowast;=inf f(xk)的估计,可得在[28]中,提出了调整delta;k的两种不同方法。第一个调整过程[见[28]]中的(2.11)很简单,但保证只产生delta;正且任意小的delta;-最优目标函数值(即,当flowast;gt;-infin;时,infkge;0f(xk)le;flowast; delta;),而第二个调整过程(见[28]中基于路径的增量目标级算法)更复杂但在infkge;0f(xk)=f*的意义上,保证得到最优值f*。注2:本文针对网络训练问题m In E(omega;,V)=J1j=0ej(omega;,V),提出了一个新的delta;m的调整公式(4),它不仅可以进行误差序列{E(omega;mj J,vmj J)}的收敛,而且可以解决权重序列{(omega;mj J,vmj J)}本身的收敛问题。虽然本文的主题是神经网络的在线BP训练过程,这是我们在应用中特别感兴趣的一个特例,当目标函数f(x)为i=1到m由有限个函数f i(x)(i=1,hellip;,m)的和给出时,我们得到的收敛结果对于一般形式的minf(x)=mi=1fi(x)的优化问题很容易被证明是正确的。

3.全局收敛结果

本节总结了我们在假设1和以下假设2和3下,对具有动态学习率(2)–(4)的在线BP训练过程(1)的全局收敛性所获得的主要结果。然而,结果的证明被推迟到下一节,以便使演示更具可读性。

假设2:1)每个误差函数E j(omega;,V)都是凸的

对于任意

2) 每个误差函数的梯度是有界的,即存在两个正标量和故有与

假设3:权序列{(omega;m J,vmj)}至多有无穷个可数极限点。

如第二节所述,使用在线BP训练程序(1),在每个周期(m=0,1,hellip;)递增地更新权重序列{(omega;m J J,V m J J)}通过J(J=0,1,hellip;,J-1)子迭代。在随后的收敛分析中,我们首先阐明了序列{(omega;m J,vmj)}的收敛结果,该序列由每个循环开始时生成的元素组成。然后将所得结果推广到全权序列{(omega;m J J,vmj J)}的一般情形。定理1:让序列{(omega;m J,vmj)}由在线BP训练过程(1)生成,具有动态学习率(2)–(4)。如果集合包含有限点(omega;*1,V*1),(omega;*2,V*2)。,(omega;*k,V*k),那么在假设1和2下,必须存在(omega;*i,V*i)isin;prod;*(iisin;{1,2,hellip;,k})这样有:

定理1表明,在prod;prod;仅包含有限点的假设下,权序列{(omega;m J,vmj)}收敛到某个最小点。接下来,我们将这个结果推广到一般情况,在这种情况下,对其没有限制。我们需要首先介绍一个序列如何被称为收敛于一个集合。定义1[31]:让{xn}是一个序列,X是一个集合。如果对于任何正数εgt;0,存在一个整数N,使得对于所有Nge;N,rho;(xn,X)lt;ε,则序列{xn}被称为收敛到集合X,用limn→infin;rho;(xn,X)=0表示。这里,rho;(xn,X)=inf{rho;(xn,X):Xisin;X}表示{xn}和X之间的距离。定理2:让序列{(omega;m J,vmj)}由具有动态学习率(2)–(4)的在线BP训练过程(1)生成。在假设1和2下,我们有

定理2揭示了权序列{(omega;m J,vmj)}收敛于集合prod;*。在prod;*是有限的特殊情况下,limm→infin;rho;((omega;m J,V m J),prod;*)=0明显等价于(omega;m J,V m J)收敛到prod;*中的某个最小点,这与定理1是一致的。因此,定理1实际上陈述了定理2的一个特例。假设存在一个有界集B,使得(omega;m J,V m J)isin;B对于所有m[与[25]中的假设(A2)相同]而不是假设1,那么定理2仍然通过仅使用紧致集B而不是证明中的prod;来成立。此外,利用定理2,我们可以很容易地得到误差序列{E(omega;m J,vmj)}的以下全局收敛结果。

定理3:在假设1和2下,具有动态学习率(2)–(4)的在线BP训练过程(1)是全局弱收敛的

备注3:比较(2)到(4),我们可以得

由于其结果趋向于0由此我们可得

由于E(omega;m J,V m J)-Elev m→0,这是由limm→infin;E(omega;m J,V m J)=E*这一事实得出的。因此,本文提出的动态学习率(2)–(4)可以看作是[25]中所采用的递减学习率(即,由m=0至infin;eta;m=infin;和又m=0至infin;eta;2mlt;infin;)的推广。值得一提的是,条件m=0eta;2m=infin;而不是m=0eta;2m

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237257],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。