基于卷积神经网络的手写数字识别的高效改进方案外文翻译资料

 2023-01-19 11:00:21

基于卷积神经网络的手写数字识别的高效改进方案

Saqib Ali1 · Zeeshan Shaukat1 · Muhammad Azeem1 · Zareen Sakhawat1 · Tariq Mahmood2 · Khalil ur Rehman1

摘要:

手写图像的字符识别由于其在学习方法中的广泛应用和含糊不清而在模式识别研究界引起了越来越多的关注。首先,基于某种用于手写数字识别的分类算法,需要两个步骤,包括字符识别和特征提取。对于手写数字识别过程,以前的方案表现出缺乏高精度和低计算速度。所提出的努力的目的是通过提供用于识别手写数字的高精度和更快的计算来使通往数字化的道路更清晰。本研究采用卷积神经网络作为分类器,MNIST作为具有训练和测试参数的数据集以及用于手写数字识别的DL4J框架。前述系统成功地赋予高达99.21%的精度,该精度高于以前提出的方案。另外,由于该算法变得有效,因此所提出的系统显着减少了训练和测试的计算时间。

关键词:

手写数字识别;卷积神经网络;特征提取与识别;MNIST数据集;深度学习

1引言

在光学字符识别( OCR )领域,从手写图像,打印的文本图像文档或真实图像识别字符具有挑战性[ 1 ]。对于学术和商业应用,手写数字识别的(HDR)的交易引起了巨大的关注[2,3]。HDR是一个具有挑战性的问题,研究人员一直在使用机器学习算法进行调查。HDR用于接收和解释图片或纸质文档形式的手写输入。但是,由于字体大小,形状,纹理和背景等的巨大变化,从真实图像中提取文本实际上是一项艰巨的任务。手写字符识别已广泛用于各个研究领域,包括处理银行支票,自动车牌识别和从信封的地址检查,识别的ID卡和邮政编码[ 4-7 ]。字符识别(CR)的基本步骤是分割,特征提取和分类[ 8]。字符识别领域的快速发展为学习算法和大型数据库的可用性提供了依靠。

包括MNIST,CENPARMI,CEDAR等在内的各种数据库促进了模式识别领域的高级研究。其中,MNIST被认为在进行模式识别任务方面具有基准地位。在MNIST数据集上测试了不同的分类器,例如限制性Boltzmann机(RBM),神经网络(NN)。近日,承认使用CNN作为分类手写数字正进入新的研究区由于深学习领域的各种应用[9- 11 ]。

在字符识别[域达到更高的性能[12- 16 ]和模式识别[ 17,18 ],深学习是其他机器学习模型中的快速发展的领域,由于其优异的特征提取和工作作为最佳分类器特征。然而,由于大量隐藏(非线性)层和连接的结果,深层神经网络被证明是花费时间的网络。目前,卷积神经网络(CNN)是最可用于图像识别的工具,因为它使用的隐藏层数少于DNN [ 19],参数相对较少。训练系统非常容易,并且由于其结构简单,可以在合理的时间内提取位置不变特征,能够使用时间二次采样在输入数据集到输出数据集之间进行映射,以提供一定程度的旋转,失真和移位不变性[ 17 ]。CNN包含多个具有完全连接的卷积的卷积层(与典型的人工神经网络中的卷积层相等)。将其溶于由CNN的输入的图像直接穿过卷积序列,非线性函数,汇集和完全连接层和最后为我们提供的输出[ 20-23 ]。

手写数字识别的领域最具挑战性问题的考虑之一,迄今几个方案/算法被提出[ 24-25 ]。由于手写体数字可以是各种取向和样式的,研究人员面临的手写体数字自动识别许多挑战[ 26-34 ]。Ciresan等。[ 35 ]提出了用于手写字符分类的卷积神经网络委员会。阿罗拉[ 36]采用了两种架构:前馈神经网络(FWNN)和卷积神经网络(CNN)用于特征提取,训练和分类构成手写图像的MNIST数据集。结果表明,对于手写数字识别,CNN比FWNN具有更高的准确性。CNN的数字分类精度为95.63%,而FWNN为90%。Ghosh等。[ 37 ]对MNIST数据集进行了深层神经网络(DNN),深层信念网络(DBN)和CNN的比较研究。根据工作,CNN的分类数字的准确度gt; 98%,并且有一些错误率。Anil等。[ 38]提出了使用基于梯度的学习和反向传播算法训练的CNN,用于识别马拉雅拉姆语字符。他们的算法产生了最高75%的准确度。他们的算法产生了最高75%的准确度。Shobha Rani [ 39 ]报告了有关识别最广泛使用的南印度文字之一的Kannada的工作。字符图像样本的训练是通过使用深度卷积神经网络之一进行的。结果表明,所报道的CNN模型的准确性为92%。但是,以前的方案的结果在手写数字识别过程的准确性和计算时间方面都达不到标准。

本研究不同于其他存在的工作,因为它揭示了CNN的在高精度和低计算时间进行分类手写体数字[方面的有效性[36-39 ]。通过广泛的文献调查,我们知道,各种报告的CNN模型的准确性均达不到表 3所述的水平。因此,我们提出了一种由DL4J增强的,用于HDR的基于CNN的框架,与其他基于CNN的方法相比,该框架具有更高的性能。基于Java的DL4J框架有助于从每个手写数字图像中获得更多不同的功能。建立的CNN模型可以将特征提取过程中卷积层的权重与完全连接的层相结合,从而可以高精度地确定和识别手写数字。之后,为进一步验证准确性,还通过更改CNN层数来检查系统。我们还在单个手写数字(0–9)的错误率和准确性之间建立了可变性链接。

此外,像CNN这样的架构在计算上比较昂贵,并且在使用不太复杂的研究问题时会导致资源浪费[ 40]。在这里,我们尝试通过减少用于训练模型的特征空间来获得总体模型分类时间,以获得用于对手写数字进行分类的最佳模型。通过随机选择CNN中卷积层的滤镜图可以完成特征图的缩小。实验结果为减少特征空间的CNN用来处理不太复杂的问题提供了确凿的证据。结果表明,与其他基于CNN的算法相比,投影的CNN模型可提高识别率,并且准确性更高。这项工作将为数字化开辟新的途径。此外,由于我们提出的框架(CNN-DL4J)的数字识别性能超出了熟练人员的能力,因此这项工作可以扩展到减少人为工作的字母。

2 文献资料

许多研究人员对数字识别领域做出了贡献。Hanmandlu和Murthy [ 41 ] 在字符识别系统上实现了依赖于不同特征准确性的各个特征的不同优先级。使用递归神经网络(RNN)的隐马尔可夫模型已被用来确定手写脚本中字符的顺序。Graves和Schmidhuber [ 42 ]将该模型用于手写阿拉伯语单词的分类,准确率达91%。Pal和Singh [ 43 ]利用多层感知器(MLP)来识别手写英文字符,并获得了高达94%的准确性,并缩短了训练数据集的计算时间。内维斯[ 44)与MLP进行了比较,他的模型通过实现支持向量机(SVM)对标准数据集NIST SD19识别了具有更高准确性的脱机手写字符。尽管如此,MLP是非线性类(可分离)分割的最佳分类器。但是,它毫不费力地陷入了局部最小值。Younis和Alkhateeb在MNIST数据集上建立了深度神经网络(DNN)模型的实现,以解决手写OCR问题。模型无需预先处理即可提取重要特征,准确度为98.46%[ 45 ]。Dutt和Dutt [

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。