英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
手写中文识别的研究
摘要
一种离线手写汉字识别的方法是通过模仿识别过程中人类如何理解汉字。考虑到手写笔画的变形,基本笔画形式由模糊隶属度表示。我们定义了25个机器可读字符元素,为形似字符提供了容错编码元素。根据各种汉字字体,判断定义笔画元素顺序的规则,并且提取字符结构中的笔画顺序信息,并生成用于识别手写汉字的相应代码。在这项工作中,提出的方法是同HCCORG汉字库模拟。最终结果验证了有效的识别和通过以下方式实现对手写形变的适应性和使用新方法实现离线手写汉字识别。
关键词:
离线手写汉字;笔画形式的模糊表示;汉字结构;笔画元素的顺序。
引言
手写汉字识别在字符识别领域颇具挑战性。在离线手写汉字识别中,由于笔划和模型类别的复杂性,笔划和笔划序列信息的缺乏,尤其是由于各种书写方式造成的较大的手写变形差异,导致样本属于同一类别的汉字识别困难。到目前为止,离线手写汉字的研究仍处于实验室阶段。笔画和笔画组合在以笔画为特征的汉字识别中起着关键作用。汉字可以分解为笔画,并且可以根据笔画数,顺序和位置进行识别。通过模仿人类对汉字的理解过程和容错机制,确定了基本笔画和折叠的模糊笔画形式定义。基于人形分割图像,提出了笔划元素序列的判断规则。本文通过提取笔画序列来识别手写汉字。建立多模板字符形成编码规则,并将其用于将字符识别转换为特定代码。实验和仿真结果表明,该方法具有特征提取和识别率低,重复编码率低的特征。还实现了手写汉字变形的容错功能。
2特征分析与选择
汉字
国家标准字库一级和二级(GB2312-80)的6763个字符统计结果表明,含水平笔画的汉字占99.8%,含垂直笔画的汉字占99.85%,含汉字的汉字占99.85%,左下降笔画93.5%,包含右下降笔画的汉字占76.5%。通过以上分析,以上述四个笔画和几种预定形式为字符元素,然后结合拓扑结构特征,可以充分表征汉字集。 2.1汉字笔画特征选择汉字笔画有五种基本笔画:水平笔画,垂直笔画,左降笔画,右降笔画和折叠。在待识别的手写汉字样本中,由于书写习惯的不同,相同的汉字水平,垂直,左降,右降笔画形式可能会变形,因此采用模糊表示法表示形态。上升和下降的笔划与水平和垂直的笔划之间的相互部分类型,以减少拒绝并提高容错能力。水平笔划,垂直笔划,左降笔划的隶属度函数如下: (1)(2)(3)(4) (5)其中分别表示与水平笔划,垂直笔划,左降笔划相关的k笔划隶属函数。右下降笔画和折叠分别表示绝对值函数。假设笔划的起点坐标为(ibdquo; J),结束点和J,gt; J,(6)如果笔划具有两个隶属度,则根据笔划的笔划形式相关性对其进行编码。 “折叠”是一种独立的笔画形式,不能轻易通过机器直接提取。因此,从机器认知的角度来看,“折叠”可以看作是笔划的组合,它是由水平笔划,垂直笔划,左下降笔划,右下降笔划定义的。为了确保基本的字符配置需求,“折叠”可分为五类:交叉折叠:水平笔划的终点与垂直[左垂直钩]或左下降笔划的起点相连,水平行程向下。垂直折痕:垂直笔划的终点与弯钩或水平或水平弯钩的起点相连,垂直折痕向右转。左降折线i左降笔画的终点与点或右降或水平笔画的起点相连,左降笔画向右转。斜钩:右下降笔划的终点与圆点或水平钩的起点相连,右下降转弯到右上方。弯曲的弯钩:右下降行程的终点与左垂直弯钩的起点相连。向右下降,向左转。为了适应不同的字体,预定折折终点与另一笔画的起点之间的像素距离不能超过阈值T,一个的终点与另一笔画的起点重合,构成两个笔画。折叠中风。 2.2汉字的结构特征选择与编码汉字结构的分类是基于对汉字整体结构的认识,为了使汉字结构更详细地划分,采用了两阶段分类法。汉字结构分为汉字结构的三个Tab1代码。
表一:汉字结构编码
笔划元素的Tab2代码类型:左,右,上下,混合。两阶段分类法意味着不区分中文结构是否是混合类型,如果结构是字符,则估计每个部分。例如:汉字“伍”的结构代码为“ 133”;汉字“ 整”的结构代码为“ 213”;混合型汉字“ 围” “里”的结构代码是“ 300”。
表二:笔划元素编码
计算机字符,选定的字符元素如表2所示,其他结构可以看成是结构信息分别包括左,右(或上下)两个部分,进一步分为三种类型。具体分类和代码见表1。
3汉字序列
要素特征
3.1水平笔划,垂直笔划,左下降笔划,右下降笔划的单笔划字符元素优先顺序判断算法。
笔画元素之间的顺序:
由相交和非相交来判断。如果将S1和S2笔划元素的序列相交,则笔划元素的序列与水平笔划,垂直笔划,左降笔划,右降笔划的序列相对应,如果不相交,则可以通过中点的位置来判断笔划元素的序列,笔划元素的判断公式为:
如果满足条件,就可以判断S1笔画元素序列在S2笔画元素序列之前。3.2折叠笔划字符元素的优先顺序判断算法根据规则3.1,折叠笔划通过其起始笔划和其他笔划元素字符来判断顺序。3.3汉字元素的顺序选择规则:根据2.2汉字结构特征的划分结果,为每个部分选择笔画字符元素的顺序。第一笔画字符元素:以汉字图像的最高点(第一笔画为多点)。在两个字符元素的情况下,根据3.l和3.2中的方法比较笔划字符元素的顺序,优先顺序是第一个笔划。第二笔画字符元素:与第一笔画相交或连接并共享左最高点(包括切线和附着)的任何字符笔画均被视为第二笔画元素;如果不是,则根据3.l和 3.2中的方法比较笔划字符元素的顺序,优先级是第二笔划;如果没有与第一个笔划相交或连接的字符元素,则将第一个笔划以外的字符图像的最高点(如果有多个点,取最左边的字符)作为第二笔划,如果有两个字符元素,根据3.l和 3.2中的方法比较笔划字符元素的顺序,优先级是第二个笔划。第三笔画字符元素:第三笔画元素的确定与第二笔画元素相同,获取与第二笔画元素相交或相连的字符元素,或字符图像最高点最左端的笔画元素除了第一笔和第二笔。第四和之后的笔划元素的顺序可以用相同的方法完成。
4中文编码规则
字符
该代码的公式为:汉字编码=汉字编码(3个编码) 笔画编码(16个编码)4.1汉字结构的编码规则1至3个编码是整个汉字编码中的结构编码,以及表1中的编码规则。 4.2汉字笔画的编码规则(l)根据第3节中笔画元素的顺序以获取代码笔画字符序列编码,表2中将这些元素表示为九种代码。(2)折叠笔画元素优先到独立代码。(3)获得代码的笔画元素再也无法获得。(4)根据汉字的严格特征获取代码(共16个代码),规则如下:1.整体混合类型的笔画代码编码规则:取(1)(4)的前十位代码,如果少于10个代码,则补0。最后六个代码补充0。2.左右整体类型的笔画编码规则(类型为133 121 122 123 131 132):当左右任意部分为混合类型时,根据字符元素的顺序获取前四位编码,补0如果少于4个代码,则其余部分补0;如果可以进一步划分,则根据每个细分部分的字符元素顺序获取前4位,如果少于4个代码,则补0。3.整体上下类型(类型为233 211 212 213 231 232)的笔画编码规则:当上下部分的任何部分为混合类型时,根据字符元素的顺序获取前4个代码,如果为混合类型,则添加0少于4个代码,其余为0;如果可以进一步划分,则根据每个细分部分的字符元素顺序获取前4位,如果少于4个代码,则补0。
5分析与处理
巧合字符
本研究采用19位汉字编码,从理论上讲,汉字可分为43* 106类,远远超过了实际应用的数量(GB23l2-80,6763个字符)。笔画共有25种。字符码表中的最大笔数形式,其中最多5个具有相同字符码的笔画形式,即,一个字符码的最大重合码概率为1/5,类似地,为1/5 *(1/5) = 1/25,......,再编码的最大重合概率比前者降低4/5,本研究中的编码字符元素为最多16个代码,因此理论上字符的重合代码数很小,重合概率只有在笔划形式,数量和笔划顺序简单且相似时才发生。研究通过笔划之间的对比关系来区分重合码,其特征如下: (1)其中表示字符i和S的笔划元素Si。在J中是对比关系; R是两个字符元素(较长,较短,较高,较低等)之间的集合。从而以一致的笔画形式,数字和笔画顺序区分字符。例如,字符“ 己”,“ 已”两者的代码均为3005160000000000000,并且对比度关系如下: (2)通过比较汉字之间的对比关系,可以区分具有一致笔画形式,数字和笔画顺序的编码重合字符。
6置信度评估
识别结果
6.1手写汉字与标准汉字相似性的定义提取待识别的手写汉字代码,并与标准汉字代码进行比较。在i位置要识别的手写汉字是 ,i位置的标准 汉字字符库是,如果,则因此,要识别的手写汉字与匹配的标准汉字之间的总体相似度为xsz = sum / 19。假设手写的代码号(非零)从笔划代码部分M到M“的汉字是x(1lt;xlt;16),x的代码将标准汉字代码与其相对位置匹配,如果相同,则sm = sm 1;否则,sm = sm 0。因此,要识别的手写汉字与匹配的标准笔画元素之间的相似度为xsb = sm / x。
6.2识别的置信度评估手写汉字的识别与匹配的汉字匹配,识别的汉字与匹配的汉字的匹配程度在前三个代码M1,M2,M3的范围,将xsz的最大值作为识别结果。当识别结果满足1:xsbgt; 0.6 amp;amp; xszgt; sum15 / 19的条件时,该结果被认为是可靠的,即要识别的汉字等于匹配的汉字,而当识别结果不满足以下条件时: xsb gt;0.6 amp;amp; xszgt; sum15 / 19,结果被认为是不可靠的。
7实验结果
7.1手写汉字的识别结果本研究在HCCORG手写字体库中对100种手写字体的汉字进行了模拟识别(精炼)实验,识别结果如下:
表三:识别准确率
l)对实验结果的错误识别分析:本研究采用整体混合类型的前十个笔画代码,对于具有笔画元素数量的相似形式的汉字,前十个笔画代码可能完全相同,可能导致错误识别。 2)实验结果的剔除分析:由于笔划的不规范,笔划代码的获取是基于字符结构的手写字符,过多的笔触和笔划损坏可能会导致错误判断。
7.2实验例
以下是字符“皇”的实验结果:折叠定义中的阈值T为0.lmin {m,n},m表示汉字图像的宽度,n表示汉字图像的高度。
“皇”的分类结果为233,提取了上部的特征,图1(b)。
表四:“皇”字上半部分特征
通过端点坐标和隶属度,笔划元素1和6构成了笔划“水平折叠”。从从左边最高点可以看出,第一个笔划元素是3,根据笔划顺序规则搜索图像,并将端点坐标进行计算,笔画的顺序是3gt;1 6gt;5gt;4gt;2,汉字“皇”上半部分的代码是35210000。
表五:“皇”字下半部分特征
通过端点坐标和隶属度,没有折叠笔划,从最左边的点坐标可以看出,第一个笔划元素是1,根据笔划顺序规则搜索图像,并将端点坐标进行计算,得出笔划字符序列是1gt;4gt;2gt;3汉字“皇”下半部分的代码是12110000。汉字“皇”的最终编码为:2333521000012110000。根据本研究的编码规则,汉字“ 皇”的标准编码为23332510000l2ll0000或2333521000012110000。
8结论
通过模仿人类如何理解容错机制,定义了一种基于字符笔划和笔划顺序的手写汉字识别方法。采用了笔画形式,字符元素代码和多级容错代码的模糊隶属度,这使得代码识别可以适应字体大小的变化和手写字符的笔画变形,例如,手写汉字“ 皇“,“交叉折叠”的“ 白”部分应该由水平和垂直笔划组成,但是手写水平和左降笔划不会影响识别结果。该研究改进了文献中的笔划顺序,并利用了笔划结构的拓扑特征,这使得笔划的提取不受笔划长度,位置和倾斜角度的影响。实验结果表明,编码方法可以很好地表征和区分汉字集。手写汉字识别取得了良好的效果。
引用
[1] HILDEBRANDT T, LIU W.Optical recognition of handwritten Chinese Characters since 1980[JJ.Pattern Recognition, 1993:26(2):205-225.
[2]ZHANG R,DING Q Q, FANG CH.New method of optimal sampling features for offline handwritten Chinese Character recognition[J].Journal of Image and Graphics. 2002,7(2): 176-176.
[3] CHEN Y B, DING Q Q,WU Y SH. Non specific Person offline handwritten Chinese Character Recognition[EB/OL]. http://www.chinaocr.net/show_hdr.php?xnanie=TVKUIV0amp; xpcs=6amp;dname= , 2005-06-20.
lt;
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[254167],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。