核方法和径向基函数网络外文翻译资料

 2022-09-07 15:03:24

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


核方法和径向基函数网络

5.1简介

对神经网络的监督学习可以有多种不同的方法。在第4章中所述的多层感知器的反向传播学习算法,可以被看作是递归技术的应用,这种技术在统计学中统称为随机逼近。

在本章中,我们采取了完全不同的方法。具体来说,我们解决了通过包含如下两阶段的混合方式来解决非线性可分模式的分类问题。

第一阶段将一组给定的非线性可分模式的集合转换成一组新的集合,在一定条件下,转化的模式成为线性可分的可能性很高。这一转换的数学证明最早可以追溯到Cover(1965)的早期论文。

第二阶段通过使用在第2章中讨论最小二乘估计的解决方案,来解决规定的分类的问题。

我们首先通过内插问题的讨论来描述关于这一混合方式对模式分类问题的一种执行方式:使用径向基函数(RBF)网络,该网络结构由三层组成。

输入层是由一些源节​​点(感知单元)组成,他们将网络与外界环境连接起来。

第二层由隐藏单元组成,他的作用是实现从输入空间到隐藏空间中的非线性变换。对于大多数情况,该网络的隐含层具有较高的维数,这一层是使用混合学习过程的第一阶段在非监督方式下训练的。

输出层是线性的,旨在提供网络施加到输入层的激活模式的响应;该层使用混合过程的第二阶段在监督方式下训练。

从输入空间到隐藏空间的非线性变换和隐藏空间的高维数满足Cover的定理仅有的两个条件。

RBF网络的多数理论建立在高斯函数之上,这一类中的重要成员是径向基函数。高斯函数也可被看作是一个核,因此基于高斯函数的两阶段过程的设计可看成是核方法。

说到核,在本章的后半部分,我们还讨论了统计学中的核回归和径向基函数网络之间的关系。

5.2 模式可分的Cover定理

当用径向基函数(RBF)网络用于执行一个复杂的模式分类任务,问题基本可通过以下方式解决:首先用非线性的方法将其变换到高维空间中,然后在输出层中分类。模式可分性的Cover定理,说明了这样做的潜在合理性,该定理可以定性的表述为如下(Cover,1965):

假设空间不是稠密分布的,将复杂的模式分类问题非线性地投射到高维空将比投射到低维空间更可能是线性可分。

从第1章到第3章对单层结构的研究中,我们知道,一旦模式具有有线性可分性,则分类问题相对而言更容易解决。因此,我们通过研究模式的可分性可以深入了解RBF网络作为模式分类器是如何工作的。

考虑一个族曲面,每个曲面都自然将输入空间分成两个区域。设chi;表示一组N的模式(向量)x1x2,...,xN的集合,其每一个被分配到的两个类chi;1和chi;2之中。如果在这一族曲面中存在一个曲面能够将分别属于chi;1和chi;2的这些点分成两个部分。我们就称这些点的二分(二元划分)关于这族曲面是可分的。对于每一个模式x,定义一个由一组实值函数组成的向量,表示如下。

假设该模式x是m0维输入空间的一个向量,那么向量将m0维输入空间的点映射到的新的m1维空间对应点的点上。我们将phi;(x) 称为隐藏函数,因为它与前馈神经网络中的隐藏单元起着同样的作用。相应的,由隐藏函数集合所生成的空间被称为隐藏空间或特征空间。

我们称一个关于chi;的二分法{chi;1,chi;2}是phi;可分的,如果存在一个m1维向量w,使得我们得到以下公式(Cover,1965):

wTphi;(x)gt;0 xisin;chi;1 (5.2)

wTphi;(x)lt;0 xisin;chi;2

由方程

wTphi;(x)=0

定义的超平面描述phi;空间中的分离曲面。这种超平面的逆像,即

x: wTphi;(x)=0 (5.3)

定义输入空间的分离面(即决策边界)。

考虑一个利用r次模式向量坐标乘积的线性组合实现的一个自然类映射。与此种映射相对应的分离面被称为r阶有理簇。一个m0维的空间的r阶有理簇可描述为输入向量x的坐标的一个r次齐次方程。表示为

其中,xi是输入向量x的第i个元素。为了用齐次形式来表述这个方程,将x0的值置为单位值1。x中项xi的r阶乘积xi1, xi2hellip;xir被称为单项式。对于一个m0维的输入空间在式(5.4)中一共有

个单项式。式(5.4)所描述的分离曲面的类型的例子有超平面(一阶有理簇),二次曲面(二阶有理簇)和超球面(带有某种线性约束系数的二次曲面)等。

这些实例如图5.1所示。该图说明在二维输入空间中的五点的构型。在一般情况下,线性可分意味着球面可分性,这又暗示着二次可分性;然而,逆命题不一定成立。

在概率实验中,一个模式集合的可分性是一个随机事件,该随机事件依赖于选择的二分以及输入空间中的模式分布。假设激活模式x1x2,...,xN是根据输入空间中的概率特性而独立选取的。同时假设所有的关于chi;的二分都是等概率的。令P(N,m1)表示某一随机选取的二分是phi;可分的概率,这里选择的分离曲面的类具有m1维的自由度。根据Cover(1965年),可以将P(N,m1)表述为:

其中,包括N-1和m的二项式系数对所有整数l和m定义如下

要说明式(5.5)的图形。最好是通过令N=lambda;m1来归一化方程并对m1的变化值画出概率P(lambda;m1,m1)对lambda;的图。此图中出现了两个有意思的性质(Nilsson,1965):

在lambda;=2附近宣称的阈值效应;

对于m1的每个值P(2m1,m1)=0.5

式(5.5)体现了Cover的可分性定理对于随机模式的本质,他说明累计二项概率分布,相当于抛(N-1)次硬币有(m1 -1)次或更少次头像向上的概率。

尽管在式(5.5)的推导中遇见的隐藏单元曲面是一个多项式的形式,因而与我们通常在径向基函数网络中用到的有所不同,但该式的核心内容却具有普遍的适用性。具体来说,隐藏空间的维数m1越高概率P(N,m1)将越接近1。综上所述,Cover的可分离定理包括两个基本成分:

由phi;(x)定义的隐藏函数的非线性构成,其中x是输入向量,且i =1,2,...,m1

高维数的隐藏(特征)空间,这里的高维数是相对于输入空间而言的。其中该隐藏的空间的维数是通过分配给M1的值来确定(即隐藏单元的维数)。

如前所述,通常将一个复杂的模式分类问题非线性地投射到高维空间将会比投射到低维空间更可能是线性可分的。但是我们要强调是,在某些情况下,使用非线性映射足以产生线性可分而不必增加隐藏单元空间的维数,如下面的示例给出。

例1 XOR问题

为了说明模式的phi;可分性思想的意义,考虑一个简单的但十分重要的XOR问题。在XOR问题中有四个二维输入空间上的点(模式):(1,1),(0,1),(0,0),和(1,0),如图5.2A所示。要求建立一个模式分类器产生二值输出响应,其中(1,1),(0,0)对应于输出0,点(0,1),(1,0)对应于输出1。因此在输入空间中依Hamming距离最近的点映射到在输出空间中最大分离的区域。一个序列的Hamming距离定义为二值序列中从符号1变为0的个数,反之亦然。因此,11和00的Hamming距离是0,而这两个01和10的Hamming距离为1。

定义一对高斯隐藏函数如下:

然后,我们可以得到4个不同的输入模式作为输入时的结果,表5.1总结了四个不同的输入模式的输出结果。输入模式被映射到(phi;1, phi;2)的平面上。在这里我们看到输入模式(0,1),(1,0)与剩余的输入模式(1,1),(0,0)是线性可分的。然后,我们将phi;1(x)和phi;2(x)作为一个线性分类器(如感知器)模型的输入,则XOR问题可以容易地解决了。

在这个例子中,隐藏空间的维数与输入空间相比没有增加。换句话说,通过使用高斯函数作为非线性的隐藏函数足以将XOR问题转化成一个线性可分问题。

图5.2 a)XOR问题的四个模式;b)决策图

曲面的分离能力

式(5.5)对在多维空间中随机指定输入模式线性可分的期望最大数目有重要影响,为了研究这个问题,如先前所述将x1x2,...,xN视为一个随机模式(向量)的序列。设N为一个随机变量,定义为该序列phi;可分时的最大整数,这里phi;具有m1的自由度。然后从式(5.5)我们可以导出当N=n时的概率

为了解释这一结果,我们回想一下负二项分布的定义。这种分布相当于在一组重复的Bernoulli实验中有r次成功、k次失败的概率。在这样的概率试验中,每个试验只有两种结果,不是成功就是失败,并且成功和失败的概率在整组实验保持相同。令p和q分别表示成功和失败的概率,具有p q=1,负二项式分布定义如下:

在p=q=1/2(即成功和失败是等概率的且k r=n的特殊情况下,负二项分布将变为

根据上述定义,我们现在可以看出由式(5.6)所表示的结果恰好是二项式分布,只不过右移了m1个单位且具有参数m1和1/2。

这样,N相当于在一组抛硬币的试验中出现第m1个失败的“等待时间”。随机变量N的期望及其中位数分别为

E[N]=2m1 (5.7)

Median[N]=2m1 (5.8)

因此,我们可以得到Cover定理的一个推论,用著名的渐近结果的形式定理可表述如下:

一组随机指定的输入模式(向量)的集合在维数M1的空间线性可分,他的元素数目的最大期望等于2m1

这一结果表明,2m1是对一簇具有m1维自由度的决策曲面的分离能力的自然定义。在一定程度上,一个曲面的分离能力与第四章讨论的VC维数的概念有着紧密的联系。

5.3插值问题

从关于模式可分性的Cover定理得到的重要思想是,在解决一个非线性可分的模式分类问题是,如果将输入空间映射到一个新的维数足够高的空间中去,将会有助于问题的解决。基本说来用一个非线性映射将一个非线性可分分类问题转变成一个高概率的线性可分问题。以类似的方式,我们可以使用一个非线性映射变换将一个复杂非线性滤波问题转换成一个更简单的线性滤波问题。

现在考虑一个具有输入层,一个单一的隐含层和并且只有一个输出单元的的输出层组成的前馈网络。我们选择只有一个输出单元的输出层的目的主要是为了简化说明而不失一般性。网络被设计为从输入空间到隐藏空间执行非线性映射,随后从隐藏空间到输出空间则执行线性映射。让m0表示输入空间的维数。这样总体上来看,这个网络代表从m0维输入空间到一维输出空间的映射,可以写成如下形式:

s:Rm0→R1 (5.9)

我们可以把将映射s视为一个超曲面F,就像可以将一个最基本的映射s:R1→R<sup

剩余内容已隐藏,支付完成后下载完整资料</sup


资料编号:[146552],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。