英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
一种新的基于设计的离线阿拉伯手写识别CNN分类器体系结构支持向量机
Mohamed Elleuch,Rania Maalej和Monji Kherallah National School of Computer Science (ENSI), University of Manouba, TUNISIA.
National School of Engineers (ENIS), University of Sfax, TUNISIA.
Faculty of Sciences, University of Sfax, TUNISIA.
mohamed.elleuch.2015@ieee.org,rania.mlj@gmail.com,
摘要
在本文中,我们探索了一个集中两个分类器的新模型;卷积神经网络(CNN)和支持向量机(SVM),用于离线阿拉伯文手写识别(OAHR),应用了dropout技术。建议的系统通过SVM分类器改变CNN的可训练分类器。卷积网络有利于提取特征信息和SVM函数作为识别器。发现该模型都自动从原始图像中提取特征并执行分类。此外,我们保护我们的模型免于由于dropout的强大表现而过度拟合。在这项工作中,评估了对手写阿拉伯字符的认识;训练和测试集取自HACDB和IFN / ENIT数据库。仿真结果表明,基于支持向量机的CNN分类器结构的新设计基于支持向量机的性能明显优于基于CNN的无丢失支持向量机和标准CNN分类器。我们的模型的性能与从最先进的阿拉伯光学字符识别中获得的字符识别精度进行了比较,产生了有利的结果。
一 简介和相关工作
在过去的二十年中,在信号和模式识别的基础上,离线在线数据分类,赢得了极大的关注。因此,它已被广泛应用于多种研究领域,如视觉识别任务[1,2],自动语音识别([3]和脑电信号[4]分类)。
最近,由于手写捕捉设备和令人印象深刻的移动计算机等技术的进步,手写识别已成为一个热门研究领域。因为这是一个具有挑战性的话题,阿拉伯手写脚本识别,在手写识别领域(SVM),多层感知器(MLP),隐马尔科夫模型(HMM),深度网络(DNN),递归神经网络(Regenerated Neural Networks),RNN和卷积神经网络(CNN)等研究人员已经深入研究了几十年。结果令人满意。这些机器学习(ML)系统已经在大型应用领域证明了其可靠性和性能,并在拉丁语和亚洲语言中赢得光学字符识别(OCR)的胜利[5,6]。这些体系结构的主要缺点是大量的参数,因此可能发生过度拟合。
考虑到对离线阿拉伯文笔迹的认可,我们的研究更多地强调并坚持认识方面。由于形式,凹面,曲率和笔画的差异,手写字符和重叠字符变化很大。出于这个原因,我们特别注意和重视承认错综复杂的阿拉伯文手写文本。由于这项工作[7],基于CNN和SVM分类器的体系结构被调查到手写阿拉伯语域[8]。另一方面,在这项研究中,为了防止我们的架构过度适应并改善其性能,应用dropout这项技术暂时从网络中删除一个单元。这个被移除的单位只在训练阶段被随机选择[9]。这种架构结合了下述两种方法的优点。
由LeCun等人[10]开发的CNN是分级神经网络,它具有巨大的表现能力,可以在视觉层次的每一层学习好的特征。它也被有效地应用于许多视觉问题,如视觉对象识别[11]和手写识别[12]。从输入图像中自动提取这些特征,其益处在于对输入文本图像的偏移和形状失真不变。
另一方面,支持向量机(SVM)被认为是由Vapnik [13]创建的机器学习(ML)中最强大和最健壮的算法之一,已经成为许多领域中众所周知的方法[14,15,16 ],如模式识别,分类和图像处理。
CNN包括许多卷积和子采样层,其可选地伴随有完全连接层(FCL)。 FCL对于标准多层感知器中的层是统一的。然而,MLP在分类任务中提供了两个边界:首先,在分类任务和MLP结构之间没有理论关系。接下来,在特征表示空间中,MLP漂移超平面分离表面在两个不同类别的示例之间的余量方面不是最佳的。为了找到适合这些问题的解决方案,在我们的实验中,我们用一个SVM分类器替换FCL的输出层来修改CNN结构。 SVM的目的是通过使用结构风险最小化(SRM)原则来低估训练集中的泛化错误。因此,SVM的泛化能力超过MLP [7]。
Ciresan等[19]通过提供MNIST [17]以及NIST SD [19]数据库[18](包括大小写字母和数字)训练的深层CNN,通过构建7个CNN证明了其模型的稳健性。我们可以将平均错误率视为最佳结果。后来,Niu和Suen [7]提出了一种新的混合CNN / SVM模型来解决利用MNIST数字数据库的手写数字识别问题。值得注意的是,混合模型获得的错误分类率取得了较好的结果。Theacute;odore等[20]研究了卷积神经网络和隐马尔可夫模型在手写体字识别中的结合,并在IAM [21]和Rimes [22]数据库中使用CNN / HMM混合模型,取得了令人满意的结果。
另一种广泛使用的分类器是支持向量机(SVM)。Byun和Lee [23]提出了模式识别的调查应用。他们使用支持向量机,他们根据他们的目标,如人脸检测/验证,物体识别,手写字符/数字识别等检查了七个类别,而陈等人[24]提出了一个使用支持向量机的识别系统。Gabor特征的效率在以前使用的用于阿拉伯子字识别的特征技术中得到了证明。最近,Elleuch 等人[25]使用SVM分类器(DSVM)调查深度网络的性能,以使用HACDB数据库识别阿拉伯语手写文本。DSVM允许通过支持向量最大化边界来提取高级判别性特征,并且保证泛化性能。实验研究已经证明了与最先进的阿拉伯语OCR相媲美的有利结果。
这些网络中的大多数,特别是具有CNN,Deep CNN,RNN和DNN等深层架构的网络具有大量隐藏层和太多参数。但是,过度拟合在这种网络中是一个严重的问题。Dropout 是解决这个问题的一种技术[9]。该技术已成功应用于多种类型的神经网络,并且对识别率有显着提高[9,26,27,28]。
Hinton等人 [9]介绍了dropout训练作为一种控制过度拟合的方法,在训练过程的每次迭代中随机省略特征的子集。他们表明,dropout改善了神经网络在视觉监控学习任务,语音识别,文档分类和计算生物学方面的性能,在许多基准数据集上获得了最新的结果。
直到最近,还没有研究人员对手写阿拉伯语字段应用CNN和SVM方法。在这项研究中,已经提出了一种基于CNN分类器体系结构的基于支持向量机的新设计,该体系结构具有用于离线阿拉伯手写文本识别的退出。因此,我们研究了提出的CNN和SVM分类器在没有dropout的情况下的合理优势; 基于CNN的SVM模型将CNN作为原始图像的自动特征提取器,通过分析阿拉伯手写字符分类任务的错误分类率,使SVM进行分类。dropout训练是一种通过在训练过程的每次迭代中随机忽略特征子集来控制过度拟合的有效方法。
本文其余部分的结构如下。在第2节中,我们介绍卷积神经网络(CNN)和支持向量机(SVM)分类器的基本概念。提出了针对阿拉伯语手写识别的基于CNN的SVM模型,并描述了适用于该模型的丢失。我们的实验研究和结果在第3节给出和分析。最后,第4节提出了一些结论性意见。
二 系统概述
在本节中,我们简要总结卷积神经网络和支持向量机分类器。然后,我们描述了我们提出的基于CNN的支持离线阿拉伯语手写识别(OAHR)的基于支持向量机的模型。
2.1 CNN分类器
卷积神经网络是由自动特征提取器和可训练分类器组成的具有深度监督学习架构的分层,多层神经网络,采用反向传播算法[10]进行训练。CNN被用来学习复杂的高维数据,并且在如何查询卷积和子采样层方面有所不同。不同之处在于他们的架构。许多CNN体系结构针对不同的问题提出,其中包括对象识别[29]和手写数字/字符识别[10,30]。模式识别任务的最佳性能得以实现。另外,为了保证一定程度的不变性,规模,移位和失真,CNN将三个主要的层次结构混合在一起,如本地接受域,权重共享和空间子采样[10]。
如图1所示,网络代表了用于手写字符识别的典型卷积神经网络体系结构。它包括一组几个图层。最初,为了获得特征映射的值,输入与一组滤波器(C隐藏层)进行卷积运算。接下来,为了减少特征映射的空间分辨率的维度(S隐藏层),每个卷积层由子采样层来追踪。卷积层交替的子采样层构成特征提取器以从原始图像中检索区分特征。最终,这些层由两个完全连接的层(FCL)和输出层来追求。前一层的输出由每层作为输入。
图1:一个典型的CNN架构,由用于阿拉伯手写字符识别的特征地图图层组成。
2.2 SVM分类器
支持向量机由Vapnik [13]和Cortes [31]开发,是一个功能强大的判别式分类器。对于许多模式分类/识别任务,它已被广泛利用并带来积极成果[32]。由于它的简约性,灵活性,预测能力和全局最优特性,它被认为是解决线性和非线性问题的最先进的工具(见图2)分类问题[13]。其制定的基础是结构风险最小化,而不是传统上用于人工神经网络的经验风险最小化[13]。
SVM基本上用于通过采用基于将采样点映射到高维特征空间的新技术来确定最优分离超平面(等式1)或决策表面,并且使用非线性变换Phi;对其进行分类,即使当数据 是线性不可分的。通过求解依赖于正则化参数的二次规划问题来获得最优超平面。这种转换是由线性,径向基函数,S形和多项式核函数等核函数来完成的;
●线性核:
●多项式核:
●Sigmoid核函数:
●RBF内核(径向基函数):
用和gamma;是将根据经验确定的参数。
(1)
是特征映射。
在这项工作中,因为特征空间是线性不可分的,所以我们通过使用非线性算子Phi;(x)将输入数据映射到更高维特征空间来应用变换。结果,最优超平面可以定义为:
(2)
其中是基于径向基函数(RBF)的核函数,sgn(.)是符号函数。这种称为RBF核SVM的分类器模型被添加到替换CNN体系结构的最后输出层以执行阿拉伯手写文本的分类。
图2:支持向量机原理 (a)两级超平面示例,(b)一对一方法
2.3建议的ML系统的体系结构
在本节中,我们提出了基于CNN和SVM的OAHR系统的体系结构,其中CNN被认为是一种深度学习算法,其中在训练期间已经应用了dropout技术。我们提出的系统是通过用SVM分类器改变CNN的可训练分类器来定制的。我们的目标是混合CNN各自的能力和支持向量机,以获得受这两种形式主义启发的新的效果识别系统。
我们展示了图3中基于CNN的SVM模型的网络架构。注意到它看起来如下。首先,第一层欢迎原始图像像素作为输入。其次,网络的第二层和第四层是带有子采样层的卷积层交流发电机,其将汇集的地图作为输入。因此,他们能够提取对输入图像的局部变换平移不变性的特征。FCL是由N个神经元组成的第六层。最后一层被支持向量机用一个RBF内核代替以进行分类。由于使用了大量的数据和参数,可能会发生过度拟合。因此为了防止我们的网络出现这个问题并改进它,应用了丢弃。这项技术包括暂时从网络中删除一个单元。这个被移除的单位只在训练中随机选择。压差仅适用于FCL层,更准确地说,它应用于前馈连接(感知器)。这种选择是基于这样一个事实,即由于卷积层没有很多参数,因此过拟合不是一个问题,因此dropout不会有太大影响[26]。
SVM将隐藏单元的输出作为训练过程的特征向量。之后,培训阶段一直持续到实现良好的培训。最后,测试集的分类由SVM分类器执行,具有这种自动提取的特征。
第3章第3.3节介绍了在我们的实验中采用的基于CNN的基于支持向量机的dropout模型的结构。
图3:具有dropout的基于CNN的SVM模型的体系结构。
三 实验,结果和讨论
我们进行了实验研究,以便我们可以通过使用基于CNN的SVM模型来探索dropout技术的效率,以识别离线阿拉伯字符。我们在HACDB数据库[33]和IFN / ENIT数据库[34]上测试了CNN的这种新架构。结果在下面的小节中逐项讨论。
3.1 HACDB和IFN / ENIT数据库
HACDB数据库[33]包含由50人编写的6.600个手写字符形状(图4-b)。每个作者生成66种形状的两种形式:58种形状的字符和8种形状的重叠字符(代表24个基本字符/没有点的重叠字符)。数据集被分成5.280个图像的训练集和1.320个图像的测试集[33]。IFN / ENIT数据库[34]由超过411名不同作者手写的26.459个阿拉伯字组成。手写的单词代表937个突尼斯城镇/村名。图像被分成四组(a-d)。它是使用最广泛的数据库之一。在这项研究中,单词被分成组(a)和(b)中的字母。我们已经保存了1.120张图片作为测试数据。这些图像包含56个形状的字符(图4-a)。这两个数据库由归一化28乘28像素的灰度图像组成。表1给出了每种形状的类的详细信息。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23678],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 质量管理体系:确保全面质量管理的一个急需的工具外文翻译资料
- 识别MOBA游戏中具有预测性的胜利团战模式外文翻译资料
- 曲线拟合和最小二乘法来推断埃塞俄比亚COVID-19病例状态外文翻译资料
- 欧洲区域政策与欧洲区域社会经济多样性:多元分析外文翻译资料
- 公共企业资源规划公司估值的关键指标和关键驱动因素外文翻译资料
- 结构方程建模中模型评估的统一方法外文翻译资料
- Fisher线性判别函数的“朴素贝叶斯”,以及变量多于观测 值情况下的一些替代方法外文翻译资料
- 变量对于分类的贡献外文翻译资料
- 多时间尺度自相关和交互相关多元分位数投影变换偏差订正降尺度模型外文翻译资料
- 与可交换性结合时随机缺失和相关定义的注释外文翻译资料