不变特征层次的无监督学习及其在对象识别中的应用外文翻译资料

 2023-02-27 15:18:29

不变特征层次的无监督学习及其在对象识别中的应用

Marcrsquo;Aurelio Ranzato,Fu-Jie Huang,Y-Lan Boureau,Yann LeCun

美国纽约大学纽约大学库恩特数学科学研究所

{ranzato,jhuangfu,ylan,yann} @ cs.nyu.edu,http://www.cs.nyu.edu/~yann

摘要

我们提出了一种无监督的方法来学习稀疏特征检测器的层次结构,这些特征检测器对于小的偏移和畸变是不变的。最终的特征提取器由多个卷积滤波器组成,然后是逐点S型非线性,以及一个特征合并层,可计算相邻窗口内每个滤波器输出的最大值。通过在第一层的特征块上训练相同的算法,可以获得第二层更大和更多不变的特征。在这些特征上训练一个监督的分类器会在MNIST上产生0.64%的错误,在Caltech 101上会产生54%的平均识别率,每类30个训练样本。 尽管结果架构类似于卷积网络,但分层无监督训练程序减轻了纯监督学习程序困扰的过参数化问题,并在极少带标签的训练样本的情况下产生了良好的性能。

  1. 简介

使用无监督学习方法来构建特征提取器在模式识别和计算机视觉方面有着悠久而成功的历史。降维或聚类的经典方法,例如主成分分析和K-Means,已在许多视觉应用中例行使用[15,16]。

在物体识别的背景下,一个特别有趣且具有挑战性的问题是无监督学习是否可以用于学习不变特征。从有限数量的标记数据中学习鲁棒的不变表示的能力是朝着建立对象识别问题的解决方案的关键一步。在本文中,我们提出了一种无监督的学习方法,用于学习不变于小失真的特征提取器的层次结构。层次结构中的每个级别都由两层组成:(1)与输入卷积的一堆局部滤波器,(2)池化/子采样层,其中每个单元在一个较小的邻域内计算最大值。每个过滤器的输出图,然后是逐点非线性(S型函数)。当堆叠多个这样的级别时,所得到的架构在本质上与Neocognitron [7],卷积网络[13,10]和HMAX相同,即所谓的“标准模型”架构[20,17]。所有这些模型都使用卷积特征检测器的交替层(使人联想到Hubel和Wiesel的简单像元),并使用最大或平均运算对特征图进行局部合并和二次采样(使人联想到Hubel和Wiesel的复杂像元) )。在监督模式下训练的最后一层执行分类。我们将这种通用架构称为多阶段Hubel-Wiesel架构。在Neocognitron中,特征提取器是通过一种特殊的无监督竞争学习方法来学习的。在[20,17]中,第一层与Gabor滤波器硬连线,第二层通过将自然图像馈送到第一层并简单地将其输出存储为模板来进行训练。在卷积网络[13,10]中,所有过滤器都是通过基于梯度的监督算法来学习的。这种全局优化过程可以在具有相对少量特征和过滤器的大型数据集(例如MNIST)上实现高精度。然而,由于大量的可训练参数,卷积网络似乎需要每节课有大量的实例进行训练。使用无监督方法训练较低的层可能有助于减少训练样本的必要数量。近期的一些工作表明,在使用基于梯度的算法调整整个系统之前,以无监督的方式对深度网络的每一层进行预训练是有好处的(在速度和准确性方面)[9,3,19]。目前的工作是受这些方法启发的,但其核心是不变性。我们的主要动机是要找到一种无原则的不变特征层次结构无监督训练方法。一旦使用未标记的数据对高级不变特征进行了训练,分类器便可以通过对少量样本进行监督训练,使用这些特征对图像进行分类。

当前,建立不变表示的主要方法是计算稀疏的手工制作特征的局部或全局直方图(或袋)。 这些特征本身通常具有不变的属性。这包括SIFT [14]特征及其许多派生,例如仿射不变

标准特征提取器 不变特征提取器

图1.左:用于无监督特征学习的编码器-解码器范例的通用体系结构。 右:用于变速不变的无监督特征学习的体系结构。 特征向量Z指示输入中存在的特征,而变换参数U指示输入中存在每个特征的位置。

补丁[11]。然而,学习这些特征可能会为更稳健的方法打开大门,使其具有更广泛的应用范围。在现有的大多数无监督特征学习方法中,不变性是一种事后考虑。例如,在[20,17,19]中,学习特征时不考虑不变性。不变性来自于特征池(复杂单元)层,该层在训练阶段完成后添加。在这里,我们建议在无监督学习架构中集成特征池。

许多无监督特征学习方法基于图1所示的编码器-解码器架构。输入(图像块)被馈送到编码器,编码器产生一个特征向量(即代码)。然后解码器模块根据特征向量重构输入,并测量重构误差。编码器和解码器是参数化的函数,通过训练使平均重建误差最小化。在大多数算法中,码向量必须满足一定的约束条件。使用PCA时,代码的维数必须小于输入的维数。对于K-means,代码是最接近的原型的索引。对于受限玻耳兹曼机器[9],代码元素是随机二进制变量。在这里提出的方法中,代码将被强制为稀疏的,任何时候只有少数组件是非零的。

不变特征学习的关键思想是用两个分量来表示输入面片:表示图像中内容的不变特征向量和编码每个特征在图像中出现位置的变换参数。它们可能包含组成输入的特征的精确位置(或其他实例化参数)。由编码器产生不变特征向量和变换参数。它们一起包含解码器重建输入所需的所有信息。

  1. 不变特征学习体系结构

我们现在描述一个学习平移不变特征的特定体系结构。第3节和第4节将讨论如何训练模型以产生不仅不变而且稀疏的特征。图像修补程序可以建模为放置在修补程序中特定位置的功能集合。可以从面片中存在的特征列表及其各自的位置重建面片。在最简单的情况下,这些特征是模板(或基函数),它们被附加地组合在一起以重构面片。如果我们假设每个特征在一个面片中最多出现一次,那么计算平移不变表示可以归结为在面片的所有位置应用每个特征检测器,并记录响应最大的位置。因此,不变特征向量记录了面片中每个特征的存在与否,而变换参数记录了每个特征输出最大的位置。通常,特征输出不需要是二进制的。

总体架构如图2(d)所示。在描述学习算法之前,我们用一个玩具的例子来说明一个经过训练的系统是如何工作的。如图2(a)所示,每个输入样本是包含两个等长相交条的二值图像。每小节是7像素长,具有4个可能方向中的1个,并放置在17times;17图像帧中心的25个随机位置(5times;5)中的一个。输入图像通过4个7times;7像素的卷积滤波器。每个检测器与输入的卷积产生一个11times;11的特征图。最大池层在每个特征中找到最大值映射,将此值的位置记录为该特征映射的转换参数。不变特征向量收集这些最大值,独立于每个特征的位置记录每个特征的存在或不存在。无论两个条形图出现在输入图像的何处,对于在不同位置包含相同方向条形图的两个图像,max pooling操作的结果都是相同的。通过将每个代码值放置在解码器特征图中的适当位置,使用编码器中获得的变换参数,并将特征图中的所有其他值设置为零来计算重构的面片。重建只是解码器基函数(基本上与编码器中相应的滤波器相同)的总和,这些基函数由所有位置的特征映射值加权。

这个玩具实验的一个解决方案是,在变量表示中编码关于哪些方向存在的信息,而变换参数编码图像中两个条出现的位置。图中所示的定向条形检测器滤波器实际上是由下一节中描述的学习算法发现的滤波器。一般来说,这种结构不局限于二值图像,并且可以用于计算具有任意数量分量的平移不变特征。

  1. 学习算法

图2。左面板:(a)来自“两条线”数据集的示例图像。每个样本包含两个在随机方向和随机位置相交的线段。(b) 由具有4个隐藏单元的自动编码器学习的非不变特征。(c) 用该算法学习的移位不变译码器滤波器。该算法找到了问题的最自然的解决方案。右面板(d):应用于双栏数据集的平移不变无监督特征提取器的体系结构。编码器使用滤波器组卷积输入图像,并计算每个特征映射的最大值,以产生不变表示。解码器通过获取不变特征向量(“what”)和变换参数(“where”)来产生重构。重构是通过在变换参数指示的位置添加每个解码器基函数(与编码器滤波器相同),并通过相应的特征分量进行加权来实现的。

编码器由两个函数Z=EncZ(Y;WC)和U=EncU(Y;WC)给出,其中Y是输入图像,WC是编码器(滤波器)的可训练参数向量,Z是不变特征向量,U是变换参数向量。类似地,反编码器是一个函数Dec(Z,U;WD),其中WD是解码器的可训练参数向量(基函数)。重建误差ED,也称为解码器能量,测量输入Y与其重建ED之间的欧氏距离=| | Yminus;Dec(Z,U;WD)| | 2。学习架构与图中的结构略有不同。1和2(d):编码器的输出不是直接馈送到解码器,而是馈送到测量码预测误差的代价模块,也称为编码器能量:EC=| | Zminus;Enc(Y,U;WC)| | 2。学习是以一种类似EM的方式进行的,其中Z起辅助变量的作用。对于每个输入,我们寻求使ED alpha;EC最小化的值Z*,其中alpha;是一个正常数。在本文介绍的所有实验中,alpha;都被设为1。换句话说,我们搜索一个代码,它可以最小化重构错误,同时与编码器输出没有太大的区别。我们描述了一种在线学习算法来学习WC和WD,包括四个主要步骤:

1.通过编码器传播输入Y,产生预测代码Z0=Enc(Y,U;WC)和转换参数U,然后将其复制到解码器中。

2.保持U不变,以Z0作为码Z的初始值,通过梯度下降使能量ED alpha;Ec相对于码Z最小化,得到最优码Z*。

3.通过梯度下降一步更新解码器中的权重,以最小化解码器能量:∆WDinfin;-part;||Yminus;十进制(Zlowast;,U;WD||2/part;WD。

4.通过一步梯度下降更新编码器中的权重,以最小化编码器能量(使用最佳代码Z*作为目标值):∆WCinfin;part;||Z*Enc(Y,U;WC||2/part;WC。

对解码器进行训练,以便从最佳码Z*生成输入图像的良好重建,同时,对编码器进行训练,以便对这些最佳码给出良好的预测。随着培训的进行,到达Z*所需的项目越来越少。在训练之后,通过编码器的一次单次传递可以很好地逼近最佳代码Z*并且不需要最小化代码空间。其他没有编码器模块的基函数模型[18]被迫执行昂贵的优化,以便在学习参数之后进行推理(找到代码)。注意,这种通用学习算法适用于任何编码器-解码器体系结构,而不是特定于特定种类的特征或体系结构选择。任何可微模块都可用作编码器或解码器。特别是,我们可以插入上一节中描述的编码器和解码器,学习产生平移不变表示的过滤器。

我们在上一节描述的“两条”玩具示例上测试了所提出的体系结构和学习算法。在实验中,编码器和译码器都是参数的线性函数(线性滤波器和线性基函数),但算法并不局限于线性编码器和译码器。输入图像是17times;17二值图像,包含两个不同方向的条:水平、垂直和两条对角线,如图2(a)所示。编码器包含四个7times;7线性滤波器,外加四个11times;11最大池单元。解码器包含四个7times;7的线性基函数。参数是随机初始化的。学习的基函数如图2(c)所示,编码器滤波器如图2(d)所示。在对几千张图像进行训练后,滤波器按预期收敛到图中所示的定向条形检测器。从输入图像中提取的四维表示具有平移不变性。这些滤波器和相应的表示与PCA或自动编码神经网络所能达到的效果有着显著的不同。为了比较,在相同的数据上训练了一个具有4个隐藏单元的自动编码器神经网络。滤波器(隐藏单元的权重)如图2(b)所示。没有出现定向的条形码检测器,并且产生的代码不是移位不变的。

  1. 稀疏不变特征

在视觉中使用稀疏的、过完备的特征具有众所周知的优点:对噪声的鲁棒性,频率和位置的联合空间的良好平铺,以及用于后续分类的良好分类分离[5,18,19]。更重要的是,当编码器-解码器架构中的码的维数大于输入时,有必要限制码携带的信息量,以免编码器-解码器可能简单地以琐碎的方式学习身份函数并产生无趣的特征。限制过完备代码的信息内容的一种方法是使其稀疏。在[19]之后,通过在编码器和解码器之间插入稀疏逻辑非线性,使得代码变得稀疏。学习算法保持不变。稀疏logistic模块将输入码向量转换为一个在[0,1]之间具有正分量的稀疏码向量。它是一个sigmoid函数,具有一个大的自适应阈值,该阈值可自动调整,以便每个代码单元仅对小比例的训练样本打开。让我们考虑第k个训练样本和码的第i个分量,zi(k),其中iisin;[1..m],其中m是码向量中的分量数。设z′i(k)为其在稀疏逻辑后的相应输出。给定两个参数eta;isin;[0,1]和beta;gt;0,由该非线性进行的变换如下:

这可以看作是一种对代码单元的过去值进行加权的“softmax”函数。通过展开式(1)中分母的递推表达式,我们可以将其表示为ebeta;zi(n)的过去值与指数衰减权重之和。这种自适应逻辑可以输出一个大的值,即接近1的值,只有在单位已经过了足够长的静止期。参数eta;通过确定样本求和的时间窗口长度来控制代码的稀疏性。beta;控制逻辑函数的增益,大值产生准二进制输出。训练完成后,运行平均值zeta;i(k)保持不变,并设置为训练期间最后1000个值的平均值。在固定zeta;i(k)下,非线性变为一个逻辑函数,其阈值等于log(zeta;i(kminus;1)(1minus;eta;)/eta;)。

图3。在28times;28位MNIST数据集上训练后,用稀疏不变学习算法在解码器中学习50个20times;20滤波器。一个数字被重建为这些特征的一小部分的线性组合,这些特征位于81个可能的位置(9times;9)之一,由编码器产生的变换参数决定。

采用上述稀疏逻辑的稀疏和平移不变特征抽取器由以下部分组成:(1.)编码器用滤波器组卷积输入图像,并在每个特征映射中选择最大值,(2lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405754],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。