在线及离线手写汉字识别: 一个全面研究和新基准外文翻译资料

 2023-01-19 10:57:21

在线及离线手写汉字识别: 一个全面研究和新基准

张旭耀,Yashua Bengio,刘成林

文章历史:2016年4月30日收到,2016年8月5日收到订正表格, 2016年8月6日接受,2016年8月9日可在线查阅

关键词:手写汉字识别 汉字 在线 离线 定向特征图 卷积神经网络 适应

摘要

近年来,基于深度学习的手写汉字识别方法(HCCR)通过直接从原始数据中获取有区别的表示,取得了最先进的获取有区别的识别效果。尽管如此,我们认为,长期而深入研究的领域特定知识仍有助于提高手写汉字识别方法的性能。将传统的归一化协同方向分解特征图(directMap)与深度卷积神经网络(convNet)相结合,在ICDAR-2013竞争数据库上获得了在线和离线手写汉字识别方法新的最高精度。有了这个新框架,我们就可以消除数据扩充和模型集成的需求,这些需求在其他系统中得到了广泛的应用,以获得最佳的结果。这使得我们的框架工作对于培训和测试都是高效和有效的。此外,虽然基于深度卷积神经网络的分解特征图可以达到最好的结果,并超越人类水平的性能,但我们发现在这种情况下作者适应仍然是有效的。并提出了一种在特定源层上的训练和测试数据之间的新的自适应层来减少失配。 适应过程可以在无监督的情况下有效地实施。通过在预先训练好的卷积神经网络中加入自适应层,可以适应特定作者的新笔迹风格,进一步提高识别精度。本文综述和比较了近年来基于深度学习的手写汉字识别方法,并为在线和离线手方法写汉字识别设置了新的基准。

1.介绍

手写体汉字识别(HCCR)的研究已经有五十多年的历史了[1,2],其目的是为了应对大量的字符类别、相似字符之间的混淆以及个人之间不同的书写风格带来的挑战。根据输入数据的类型,手写汉字识别可以是分为在线和离线的。在在线手写汉字识别方法中,记录并分析笔中尖运动,以确定语言信息的表达[3],而在离线HCCR中,字符(灰度或二进制)图像被分成不同的类别。离线手写汉字识别有很多应用,如邮件分类[4],银行支票阅读,书籍和手写笔记抄写,而在线手写汉字识别方法已被广泛用于笔输入设备,个人数字助理,智能手机,计算机辅助教育等。此外,手写汉字识别也是对于同时考虑分割和再认知的手写文本识别(包括在线[5]和离线[6])的一个重要的组成部分。高字符识别精度是手写文本/字符串识别成功的关键[7]。

为了促进提高手写汉字识别方法的学术研究和基准,国家模式识别实验室和中国科学院自动化研究所组织了CCPR-2010[8]、ICDAR-2011[9]和ICDAR-2013[10]的三场比赛。比赛的结果显示加时赛的成绩有所提高并且涉及到很多不同的识别方法。一个压倒性的趋势是基于深度学习的方法逐渐主宰比赛。在最开始时在CCPR-2010的系统是传统的方法。在ICDAR-2011中,来自瑞士的IDSIA小组提交了他们的基于卷积神经网络(convNet)系统[11]并获得离线HCCR第一名。对于HCCR来说,他们的作品是第一部使用卷积神经网络的作品 。在2013年的ICDAR中,在线和离线手写汉字识别仍在使用卷积神经网络。富士通研发团队中心采用四层卷积神经网络投票法赢得离线汉字识别的比赛,而沃里克大学的团队使用稀疏卷积神经网络 [12]赢得在线汉字识别的比赛。

深度学习方法可以直接从原始数据中学习演示文稿,因此可以为许多模式识别问题提供端到端的解决方案。然而,深入研究的特定领域知识仍然有助于进一步提高手写汉字识别的性能[14,15]。手写汉字识别最重要的领域知识包括字符形状规范化与方向分解特征 地图。字符识别界提出了许多有用的形状规范化方法,如非线性规范化法[16]、双矩规范化法[17]、伪二维规范化法和线密度投影插值法[18]等。形状规范化可以减少班内变化,从而提高识别精度[19]。另一个重要领域知识是方向分解的特征映射。通过分解梯度(用于脱机图像)或局部笔划(用于在线行程轨迹)到不同方向(从0°到360°),我们可以得到多个特征映射,每个特征映射代表原始梯度/笔划的方向。这是一种很超前的汉字知识,它是在书写过程中由基本的方向笔画产生的。在卷积神经网络出现之前,将汉字表示为方向性特征的方法已经是一种最先进的方法[19-21]。

为了提高手写汉字识别方法的准确性,而不是从原始数据中训练卷积神经网络,我们采用规范化协同的[22]方向分解特征图(directMap)来表示联机和脱机手写字符,它可以看作为一个dtimes;ntimes;n稀疏张量(d是量化方向的个数,n是地图的大小)。方向分解特征图包含形状规范化和方向的主要特定知识分解,因此它是手写汉字识别的一个强大方法代表。此外,最近成功地使用了用于图像分类的深度卷积神经网络[23–25],我们开发了11层手写汉字识别的转换网。通过将方向分解线和离线手写汉字识别方法的新基准。以前的作品通常采用不同的把方法来获得在线和离线手写汉字识别方法的最佳性能。然而,使用基于方向分解特征图的卷积神经网络,我们能够在同一框架下实现在线和离线手写汉字识别方法的最新性能。由于嵌入了特定领域的知识,我们也消除了数据扩充和模型组装的需求,这对于其他系统实现其最佳性能至关重要。这使得我们的模型在用于培训和测试过程更加有效。

个人书写风格的巨大变化是手写汉字识别面临的另一个挑战。写手自适应广泛用于通过逐渐减少在作者独立系统与特定个体之间的不匹配来处理此挑战。尽管基于深度学习的方法已经超过人类手写汉字识别的水平,但我们表示在这种情况下写手自适应仍然有效。灵感来自我们早期关于样式转换映射的工作[28],我们添加了一个特殊的卷积神经网络中的自适应层,用于匹配和消除无监督情况下训练数据和测试数据之间的分布变化。由于学习过程中所涉及的规则化,即使只有少量样本可用,自适应也能保证性能得到提高。在我们对60位在线和离线手写汉字识别作者的实验中,通过对卷积神经网络的改编,我们观察到一致且重要的精度的提高。

根据之前的综述文件[3,29–33],手写识别界已经报告了许多有用的重要的成就(从1980年到2008年)。如今基于深度学习的方法成为解决手写相关问题的新的前沿技术。本文 可以看作是对最近进展的在基于深度学习方法的手写汉字识别的概述(尤其是通过三个竞赛[8-10])。这里报告的结果可以用作在线以及离线手写汉字识别领域未来研究的新基准。

本文的其余部分安排如下:第二节审查相关工作。第3节描述了生成联机和脱机方向分解特征图的过程。第4节展示了从传统方法到基于卷积神经网络方法的演变过程。第五节介绍了系统中使用的卷积神经网络的详细情况。第6节说明如何在卷积神经网络中添加一个适配层以进行作者适配。第七节分析实验结果,第八节总结

2.相关工作

受到了在不同领域基于深度学习方法成功的影响[34,35],手写汉字识别的解决方案已经从传统的方法转变为卷积神经网络[36]。首次报道了成功使用卷积神经网络进行手写汉字识别(离线)的方法是多柱深层神经网络(MCDNN)[37,38],之后在ICDAR-2013比赛中,使用稀疏卷积[39]实现在线HCCR的最佳性能。紧接着提出了一种手写汉字识别交替训练松弛神经网络[40],最近实现了通过集成多种策略,如局部和全局失真、多监督训练和多模型投票的最高精度的识别方法[41]。卷积神经网络也被成功地用于类似于手写汉字识别的朝鲜文字识别[42]。尽管这些方法在很大程度上优于传统方法,但它们是基于端到端学习的,忽略了手写汉字识别中长期深入研究的领域知识。

最近,[15]结合了传统的特征提取方法如Gabor和梯度特征图结合GoogLeNet[24]以获得非常高的离线手写汉字识别精度。此外,对于在线手写汉字识别,[14]和[43]通过使用卷积神经网络,结合变形、虚笔划映射、路径签名映射和方向映射等领域知识,获得了最佳性能。这些结果清楚地表明了使用领域知识进一步提高性能的优势。值得注意的是,在将深度学习应用到大多数图像分类任务中时,生成失真图像以增加训练数据也是一种对领域知识的利用。然而,在我们看来,最重要的领域特定知识应该是形状规范化和方向分解。利用我们提出的基于方向分解特征图的卷积神经网络,我们可以在不借助于数据增强或模型集成的情况下,为在线和离线的手写汉字识别获得新的基准,这对于[15,43]获得最佳结果至关重要。

基于深度学习的方法也广泛运用在与笔迹相关的问题,如书写者识别[44],混合模型[45],置信分析[46],手写法定金额确认[47]和文本识别[48]。卷积神经网络还可以与隐马尔可夫模型(HMM)相结合用于在线手写识别[49]。最近,具有长短期记忆(LSTM)的递归神经网络(RNN)[50]已成功用于手写体中文文本识别,无需显式分割字符[51]。递归神经网络和卷积神经网络的结合也用于场景文本阅读[52,53]。很明显,越来越多的人与认知相关的问题将使他们的注意力转向深层次高性能解决方案的学习方法。

图1. 在线和离线手写汉字的直接地图

写手自适应在个性化笔迹识别系统中得到了广泛的应用[26,27]。 我们以前的工作[28]提出了一个用于不同量词的顺应性研究[54–56]。以前的写手自适应主要集中在传统的分类器上,比如最近的原型分类器[57]和修正二次判别函数[1]。 然而,作者对深层卷积神经网络的改编仍不清楚。传统的深层网络[58]的适应方法是重新训练一个分类层,该分类层将激活一个现有的网络作为输入特征(如DeCAF[59])。标记数据时对于目标域是不可用的,子空间对齐(嵌入)[58]被广泛用于最小化域偏移。在这个工作中,通过将STM视为一个新的特殊层,我们可以在无监督的情况下,仅使用少量特定于写入程序的数据,使卷积神经网络适应特定作者的新风格。提议的自适应层是神经网络的一个简单而基本的组成部分,因此可以很容易地集成到不同的网络结构中。

  1. 方向分解特征地图

形状规范化和方向分解在手写汉字识别中的领域知识中的功能强大。形状规范化可视为原始字符和规范字符之间连续二维空间的坐标映射。因此,方向分解可以在原始版本上(规范化协作)或规范化(基范化的于规)字符[22]实现。范化协同方法在不生成规范化字符的情况下,将原始字符的方向元素映射到方向图,从而可以减轻形状规范化引起的笔划方向失真的影响,提供更高的识别精度[22]。我们使用规范化协作方法为在线和离线手写汉字识别生成方向分解特征图[19]。

    1. 离线直接地图

离线HCCR数据集提供灰度图像,背景像素标记为255。为了达到快速计算的目的,我们首先将[1255]中的灰度值:背景值设为0,前景值设为0。在这之后,前景灰度被非线性地归一化到指定的范围,以克服不同图像之间的灰度变化[19]。对于离线字符的形状归一化,由于其优越的性能,我们选择了线密度投影插值(LDPI)方法。对于方向分解,首先利用Sobel算子计算原始图像的梯度,然后利用平行四边形规则将梯度方向分解为相邻的两个标准链码方向[60]。注意,在此过程中,不生成标准化字符图像,而是将原始图像的梯度元素直接映射到标准图像大小(例如64times;64还是32times;32)合并像素坐标转换。

    1. 联机方向分解特征图

在线手写汉字识别数据集提供笔划坐标序列。我们还使用规范化协作方法联机手写字符,即从原始模式中提取特征,结合坐标变换,而不生成规范化模式。由于LDPI不适用于在线轨迹,因此用于在线HCCR的形状规范化方法是伪2D双矩规范化(P2DBMN)[61]。 对于方向分解,将局部笔划方向(由两个相邻点组成的线段)分解为8个方向,然后生成每个方向的特征地图[61,21]。想象的笔划(笔划或取消笔划)[62]也加上0.5的权重,以获得增强的表示。

3.3.分析

为了构建紧凑表示,我们设置了特征的大小映射为32,因此生成的方向分解特征图是 8times;32times;32张量。图1示出了在线和离线方向分解特征图的示例。第一列是原始字符,而索引为0–7的列是八个方向图。为了更好地说明,我们还展示了八个方向图的平均图。 结果表明,平均图中的形状与原著相比是标准化的。对于脱机字符,梯度被分解,因此平均图给出原始图像的轮廓信息。相反,对于联机字符,局部笔划被分解,因此输入字符可以很好地由平均图重建,我们也可以发现虚拟笔划已经被考虑在内了。 因为梯度垂直于局部笔划,联机和脱机方向分解特征图虽然采用了图1右侧所示的相同方向编码,但它们是不同的。

方向分解特征图是手写汉字识别的一种强大表示,它利用了强大的先验知识,即汉字是由书写过程中的基本方向笔划产生的。如图1所示,方向分解特征图非常稀疏。实际上,在我们的实验数据库中,方向分解特征图中92.41%(联机)和79.01%(脱机)的元素为零。利用这种稀疏性,我们可以有效地存储和重用提取的方向图。由于稀疏性,使用比原始图像小(大于64times;64)的地图不会丢失形状信息。

  1. 从传统手写汉字识别到卷积神经网络

在获得方向分解特征图之后,传统的手写汉字识别方法[19]在每张地图上采用抽样策略。如图2所示,在每个采样位置,高斯模糊[19]用于减少行程位置变化的影响。通常,从每个地图上有规律地采样8times;8个点,得到一个维数为512(八个方向)的特征向量,这就是众所周知的方向特征。然后,将y=x0.5的Box-Cox变换[63]应用于每个特征维数,以增加数据的高斯性。然后使用主成分分析(PCA)、Fisher判别分析(FDA)[64]和判别特征提取(DFE)[65]等线性降维方法将特征降维为低维子空间(例如160)。在这个子空间中,最近原型分类器(NPC)[57]、修正二次判别函数(MQDF)[1]和判别学

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238014],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。