英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
联机和脱机手写体中国字符识别:基准上新数据库
摘要
近日,中国中科院自动化研究所(中科院自动化所)发布了无条件转接应变在线和离线手写中国中科院自动化所的数据库,OLHWDB和中科院自动化所,HWDB,其中包含孤立的字符样本和1020作家产生的手写体文字。本文介绍了我们使用的隔离字符集OLHWDB1.0和HWDB1.0(一般称为DB1.0),OLHWDB1.1和HWDB1.1(一般称为DB1.1国家的最先进的方法基准测试结果)。该DB1.1占地面积3755中国字符类作为1级组GB2312-80的。所评估的方法包括一维和伪二维归一化的方法,从二值图像,并从灰度图像,从笔按压的轨迹和从笔升降机网上行程方向特征提取,梯度方向特征提取使用改性二次判别功能分类(MQDF) ,判别特征提取(DFE),以及歧视性的学习二次判别函数(DLQDF)。我们的实验报道的最高测试精度最高89.55%和93.22%的HWDB1.1(离线)和OLHWDB1.1(在线),分别使用与DB1.1训练了MQDF分类时。当与DB1.0和DB1.1两个训练,上HWDB1.1和OLHWDB测试精度被提高到分别90.71%和93.95%。使用DFE和DLQDF上HWDB1.1和OLHWDB1.1最好的结果分别为92.08%和94.85%。我们的研究结果相媲美的ICDAR2011中国手写识别大赛的最好成绩,虽然我们用较少的训练样本。
- 简介
手写体汉字识别,包括在线(行程轨迹)和离线(图像)的认可,自20世纪60、70年代早期的作品受到了广泛的重视。特别是,有一个繁荣的研究从上世纪80年代,由于个人电脑和手持设备的普及,数据采集(激光扫描仪、手写板与PDA)[1,2]。已成功的应用在文档数字化和检索发现,邮政邮件分拣、支票处理、表格处理、基于笔输入的文字等[ 3 ]。
尽管巨大的进步和成功的应用,仍存在巨大的挑战,特别是无约束手写的识别,包括孤立的人物和连续脚本(手写文本)。手写中国字符识别报告超过98%的限制的笔迹样本数据集精度,但在无约束手写的精度要低得多[4]。连续手写识别脚本是因为字符分割的模糊性,更是难上加难。近期中国手写识别竞争的结果表明这两个孤立字符识别功能和手写文字识别的挑战[5]。
为了支持学术研究和标杆,模式识别国家重点实验室(NLPR),中国科学院自动化(中科院自动化所)研究所已建成无约束中国的笔迹新的数据库。手写数据使用上,使得在线和离线数据同时获得的纸的Anoto笔生产。样品包括隔离手写字符和持续的脚本。联机手写数据库CASIA-OLHWDB(OLHWDB简述)和离线数据库CASIA-HWDB(HWDB简述),由1020作家产生,最近发布了在学术研究自由使用[6]。无论是OLHWDB或HWDB包含约390万字符的孤立样本,含135万字约5090手写文本页面。分离的字符的样本被分成三个数据集DB1.0-1.2和手写文本被分成三个数据集DB2.0-2.2(具有DB1.0-1.2的相应作家)。孤立的样本包括7356字符类,包括7185中国字符和字母数字171和符号。他DB1.1(300作家生产)中国字符3755班落入如1级组GB2312-80(称为GB1简述),这是通常被视为一组标准的中国文字识别研究。该DB1.0(420作家产生的)涉及3866中国频频字符,3740班的GB1组重叠。建议DB1.0的样品添加到DB1.1用于增强训练数据集。
数据库该数据库同时和casia-hwdb已用于在比赛在2010对中国模式识别会议组织的培训(CCPR 2010)[ 7 ]和第十一文档分析和识别国际会议(ICDAR 2011)[ 5 ]。竞争的结果表明随着时间的推移,并涉及许多不同的识别方法。然而,仍然是一个强大的标准基准的需要,因为参加比赛的系统使用不同的训练数据集,但建议参考数据集。因此,这项研究提供了一个基准的在线和离线手写汉字识别的新标准数据集。我们只考虑孤立的手写体汉字识别的研究以来,它仍然是一个未解决的问题,而手写文本识别将在其他作品中可视的深入。
在许多以前的作品,我们评估3755类集GB2312-80一级识别,在该数据库同时和casia-hwdb的db1.1。我们使用国家的最先进的方法,特征提取和分类,实现识别系统。具体来说,我们使用1D和伪二维归一化方法[ 8 ],梯度方向特征提取的图像从灰度图像[9,10],在线笔画方向特征提取从笔下的轨迹,从笔升降机[11,12],采用改进的二次判别函数分类(MQDF)[ 13 ],最近原型分类[ 14 ]、鉴别特征提取(DFE)[ 15 ],并判别学习的二次判别函数(dlqdf)[ 16 ]。我们首先比较归一化和特征提取方法对标准数据集db1.1,然后比较不同的分类方法db1.0和db1.1联合训练数据集。所报告的结果提供了一些指导方针的方法选择,并作为一个基准,以评估进一步的作品。
在本文中,我们简要介绍了2节的数据集,勾勒出的识别方法在3节,目前和讨论的实验结果在4节,,在第5节并给出了结论。
- 数据集
手写中国和日本的文字很多数据库已经被释放,但只有最近期的目标是无约束的笔迹。
手写日文字符数据库ETL9B包含200个样本为每3036类(包括2965汉字字符)。该数据库所报告的准确度大多在99%以上。较大的日文字符数据库JEITA-HP含有580样本为每3214个字符,超过98%的高精确度已报道[8]。 2000年,北京邮电大学电信发布了一个庞大的数据库名为HCL2000,其中包含1000个样本为每3755炭acters[17]。该数据库没有任何挑战,因为超过98%的高精确度可以得到[18]。
联机字符识别、东京农业技术大学(主要)公布的两大数据库称为kuchibue和nakayosi [ 19 ],包含写在盒样品但序列的句子,由120位作家和163位作家分别产生。但是这些数据库中的汉字字符的识别是不具有挑战性的(见[ 11 ]的结果)。
表1
孤立字符数据集的规范。
Dataset |
Total |
GB1 |
|||||||
# writer # class # sample |
# class # sample |
Training |
Test |
||||||
OLHWDB1.0 |
420 |
4037 |
1,694,741 |
3740 |
1,570,051 |
1,256,009 |
314,042 |
||
HWDB1.0 |
420 |
4037 |
1,680,258 |
3740 |
1,556,675 |
1,246,991 |
309,684 |
||
OLHWDB1.1 |
300 |
3926 |
1,174,364 |
3755 |
1,123,132 |
898,573 |
224,559 |
||
HWDB1.1 |
300 |
3926 |
1,172,907 |
3755 |
1,121,749 |
897,758 |
223,991 |
||
华南理工大学(华南理工大学)发布了一个全面的在线中文手写数据库scut-couch2009 [ 20 ]。它由11个孤立的字符集(简体中文和繁体,英文字母,数字和符号),汉语拼音和单词。数据集包含188个样本的抑制为3755大类(一级集GB2312-80标准),由188位作家的产生。一个国家的最先进的识别精度达到95.27%上[ 20 ]。
新的数据库,该数据库同时和casia-hwdb(详情可在[ 6 ]发现)有一些突出的特点与以往的相比:无约束的写作,同时在线和离线数据,孤立的样本和连续的脚本的脚本数据相结合,深刻诠释,大类集,作家和大样本。为研究孤立的字符识别,我们建议使用数据集olhwdb1.1和hwdb1.1(称为db1.1一般),olhwdb1.0和hwdb1.0(称为db1.0一般)。在db1.1落在3755类集GB2312-80标准一级汉字(B1组),而db1.0与GB1集研磨有3740类。
在线数据集提供的坐标序列的笔触。离线数据集提供的灰度图像与背景像素标记为255。因此,它很容易将灰度图像转换为二进制图像通过简单地将所有前景像素标记为1和背景像素为0。然而,利用灰度信息通常是有益的。四集,在线和离线db1.0和db1.1,是用在我们的实验中,总结在表1。olhwdb1.0和hwdb1.0数据集划分为336位作家和84位作家的测试集,训练集。olhwdb1.1和hwdb1.1数据集划分为240位作家和60位作家的测试集,训练集。训练集和测试集是不相交的,并产生完全不同的作家。
图1显示了由同一个作者所产生的一些在线和离线数据的样本。
- 识别方法
字符识别系统一般由三个主要部分组成:字符归一化,特征提取和分类。一般情况下,分类方法没有在线或离线识别的不同,但正常化和特征提取方法依赖于输入数据的类型。在下面,我们列出离线识别的归一化和特征提取方法和在线识别分开,然后给出分类的方法。
3.1离线样本的归一化和特征提取
我们评估二值图像和灰度图像的识别性能。对于灰度图像,灰度反转:背景为0和前景在[ 0254 ],和前地面的灰度级被归一化到一个指定的范围内,以克服不同的图像之间的灰度变化[ 21 ]。我们考虑了2种类型的灰度归一化:线性和非线性。线性化,用在[ 21 ],重新尺度的均值和标准差(SD)前景灰度图像到指定的值。表示平均值和原始图像的标准差为M和S,分别转化为标准值M0和S0,分别为原始像素灰度G转化为G0的
g0 |
g m |
s0 |
thorn; |
m |
: |
eth;1THORN; |
s |
||||||
frac14; eth;THORN; |
0 |
线性灰度归一化有一个不足,它没有映射到原来的灰度级0,归一化灰度级0,虽然我们可以人为地结合在[ 0255 ]的灰度级。考虑到灰色的水平主要体现在frac12;米2S,我thorn;2S和线性化的地图,它2s0frac12;M0,M0thorn;2s0 amp;。得到一个光滑的非线性灰度级映射,我们使用一个非线性函数
g0 frac14; agp |
eth;2THORN; |
|||||||||
that |
maps three values f0, m, mthorn; 2sg to normalized |
剩余内容已隐藏,支付完成后下载完整资料 资料编号:[151143],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。