一种基于PAT树字典的中文机械分词算法的研究及应用外文翻译资料

 2022-12-05 17:00:33

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


一种基于PAT树字典的中文机械分词算法的研究及应用

摘要:中文机械分词在分词方式上被划分成两种,词语分词以及字典分词。词语分词较为简单但会导致巨大程度的冗余。但是,词典分词是一种更精确但是复杂的结构。在本文中,对中文分词机械词典算法和词典的机制进行了深入研究,提出了一种改进的PAT树词典机械算法,这种算法将词典分词和词语分词相结合,并且设计的这个分词系统被实现和应用在紧急情况信息管理平台的全文回收系统中。在紧急情况管理平台中的全文回收要求一个很快的分词速度。因此,迅速并且有效的分词字典的建立和使用一种良好的分词方法在实际应用中是非常重要的。

介绍

中文信息处理技术是一项非常重要的计算机应用技术。它被渗入计算机应用的各个领域包括网络,数据库技术,以及软件工程中。中文信息处理技术是高技术发展的关键。根据数据统计,超过百分之八十的信息载体是语言。语言信息自动输入和输出,信息的校正和分类,信息提取和回收,以及语言翻译都是国家经济以及国家防御信息非常重要的基础。中文信息处理涵盖了词语,词组,句子,章节以及其他多重等级信息处理任务。中文自动分词是是中文信息处理的重要基础工作。许多中文信息处理项目涉及了词语分词的问题例如机器翻译。中国文学,自动摘要,文本自动分类,中文文学数据库的文本回收以及其他。

中文文本处理的第一个问题是中文词的分割,由于中文文本的按句子分割,词语之间没有空格。如果由句到词断字的转化,正确分词是一个中文文本处理的必要条件。在八十年代中期,自动单词分割引起了研究者的注意,并提出了各种模型和软件。近年来,随着国家信息技术的不断发展和互联网的普及,其他汉语词典和语料库信息共享和中国信息的广泛应用处理是一个迫切需要实现的问题。同时,对自动分割技术的要求也越来越高。自动分词已引起学者们的关注,并成为一个先进的主题,它具有强大的驱动力信息产业需求。在本文中,首先,我们深入研究了分词算法的研究,它是全文检索中的关键技术之一。然后根据分析目前的研究情况与不足,设计了一种分词词典机制通过两个字分割的改进算法。最后,本文用开放源代码语言java来实施和应用了本系统。本文的组织结构如下:下一节讨论中文分词的相关工作。在第三节,我们提出的主要论述了两个分词时遇到的最大问题和分词策略策略。在4节中改进帕特丽夏树和中文机械词分词算法。最后一章是总结。

相关工作

从80年代初开始,自动分词就中国信息处理领域提出,许多专家学者们提出了一系列的文字分词算法。现有分词算法分为四大类:基于字符串的方法机械分词,基于理解的方法,基于统计的方法和基于语义的方法。随着硬件技术升级,中文分词也优化了最大的空间复杂度和时间复杂度。中文分词算法的发展根据算法特点,分为三个阶段。

第一阶段牺牲时间的复杂度给空间的复杂度。从80年代末到90年代初的时期在分词算法中考虑的主要因素由于计算机的局限性,引起的时间复杂度[ 2 ]。这些算法在空间复杂度方面不是很好。主要研究的是词分割和简单的词汇分割。这个类型的算法,如:正向匹配方法,反向匹配方法,最少匹配,分割标记法,并且这类算法采用文字遍历。

第二阶段是牺牲空间复杂度给时间复杂度。自90年代以来,许多新的分词算法出现了[ 3 ]。这些算法开始采用基础字典机制,并具有更好的空间复杂度。机械分词算法提高了字典系统的设计。

第三阶段是平衡时间复杂性和空间复杂度。自本世纪开始,随着机器学习技术的不断进步和更广泛的使用,中文分词算法也受益于他们[ 4 ]。算法如人工神经网络,最大熵模型,

隐式马尔可夫模型有新的应用程序的话识别。成熟的分词算法基于隐藏的马尔可夫模型,被广泛用于中国科学院的分词算法中。

基于字符串匹配的分词算法已经研究了许多年,实现了用户的基本需求,在处理当前问题时取得了初步的效果。下一步要考虑如何整合算法的连接,建立专业的字典,减少重叠和组合的歧义问题。

基于理解和语义的分词算法仍然是理论研究。基于统计的分词算法需要大量的训练文本建模,机器学习。

中文分词的挑战与解决策略

词语的界定和切分规范

汉语语素、单词、合成语言之间的界限不清楚。语言学者对词概念的定义很明确。语言是最小的有意义的活动,可以独立于语言元素。然而,从一些字典的汇编,我们仍然可以看到一些问题是很难区分上述边界。在分词系统中,词汇集合的标准仍然难以掌握。

分词系统仍然不是一个统一的、具有权威性的词汇词汇的基础。分词系统用于解决实际问题和实际需要的频率使用的语料库的规定,“字单位。”子单位可以是一个字在表中的同一个字。它可以包含未知的单词识别和词法分析,一些单位的分割。

因此,构建一个统一的标准分词单元,无疑是一个重要的问题。

歧义识别

歧义指的是同一个词可能有2个或多个切分方式。在缺乏理解能力的情况下,计算机程序是很难知道哪个分段是正确的。与组合歧义相比,交叉歧义相对容易处理。因为我们要判断整个句子的组合模糊。如果计算机能够解决交叉歧义和组合歧义的问题,在歧义中仍然存在一个问题,这就是所谓的真歧义。真正的歧义是指应该是什么词,而不应该被人的话来判断。

中文分词的策略

基于以上分析,当中文分词时,我们需要遵守一定的策略和规则。因此,熟悉通用策略是实现分词算法的基础。下面的简短说明,对搜索引擎在中文分词策略中应该有以下几个特点

分词索引策略应与查询词策略相一致。如果分词不一致,搜索结果的准确性就会降低,用户体验就会差。用于索引的最小正匹配,和最小使用反向匹配搜索。

分词效率。搜索引擎需要不断地抓取网页,提取内容,并构建索引。如果分词的峰值效率很慢,那么文本库的更新速度也很慢,所以不能及时响应信息的动态变化。

使用更多的字典。在普通的字典中很难找到专门的术语,个人的名字。统计语言模型的统计结果会影响到效率,而且效果也不是很好。因此,有必要使用更多术语字典。这可以解决很多问题的歧义。从而提高分词效率。

查询要实现模糊查询,对重叠的歧义和组合歧义,处理原则是对各种文字处理结果,以确保用户需要找到的结果。

搜索引擎不需要严格的消除歧义,而是要对歧义字段进行模糊的字段,保留各种分割结果,对索引和搜索。

对于用户输入关键字,尽量不做分词。用户输入的关键字和短语是一般都是完全的,或有意义的词元素,没有必要的分割。

拦截长短语。长短语是没有意义的,对于长短语,它可以有效地进行搜索后分割。在很多情况下,长的短语都是有意义的句子或短语,如果不切,搜索结果会很有限,往往不能达到用户的要求。

一种改进的和机械分词相结合的中文分词算法

Patricia树(检索信息的字母数字编码的实用算法)是由墨里森提出在1968年第一个提出的。在90年代,帕特丽夏预测应用的全文检索领域,发展成为一个帕特丽夏树,并获得了巨大的成功。

帕特丽夏树本质上是一个压缩的二进制查询树,这是类似于树的。两者都是记录在叶节点中的信息的条目,一个路径表示一个关键字。不同的是树的内部节点的信息是关键,和帕特丽夏树节点信息的关键词的二进制位串内。它有三个基本的数据项:位置、左指针和右指针的比较。其中,左、右指针指向左、右子节点。从根节点到所有的位字符串在第一个不同的位位置的节点,可以更方便的数字记录。由于更多的地方存在,通过节点位串将选择一个不同的路径遵循[ 8 ]。当比较的位是0,位字符串的左边的树,当比较的位是1,位字符串的转折点树。

中文词典分词的有点与缺点

基于帕特丽夏树的汉语词典搜索机制在上文已经有所介绍,为了避免通过对关键字的比较,减少树的深度,对树实现了压缩[ 9 ]。与其他机制相比,它的搜索速度快。因此,基于帕特丽夏树的分词词典机制更适合于大规模的实时性要求高的中文信息处理系统。帕特丽夏树也有一些缺点。首先,它是一个完整的二叉树,所以节点的数目比条目数量的2倍,比以前的几种机制更为字典空间。其次,如果字符串较长,树的深度较大,从而影响搜索性能。它是非常困难的,因为它的内部节点构造的基础上的所有的字空间的比较。

改良的帕特里夏机械字典

通过上述分析和研究,我们可以看到,分词词典是自动分词系统的基础。它包括2个元素:一个是字典的内容,即字典中包含的单词。一个好的分词词典具有很高的覆盖率,对分割的准确性有着重要的影响。另一种是字典组织,它对分词系统的速度有很大的影响。在语言处理系统中,需要经常查字典,如何有效的字典的快速检查将直接影响系统的整体性能。我们专注于以下方面快速检查字典。

最大限度地减少每一个搜索的范围是提高速度,提高分词性能的关键。如果每次都查字典,那分词就会很慢。

寻找是否存在无效。对于前缀词,如果有四个单词,当找到前两个字完成时,你应该直接找到四个字。如果我们发现只有三个单词满足,它是无效的,没有意义。

在词典的单和双字单词是75 810,占了96.4%的比例,超过2字的词语,只有3.6 %,所以词典构建焦点应该建立在单一的双字的搜索。

由于表面性能影响字典的性能,为了更好的利用字典,要快速找到本文的目的,本文提出了基于前人研究的改进字典机制的帕特丽夏树,主要思想如下:

(1)第一个字建立哈希字典,帕特丽夏树的第一个分支的第一个分支相同的帕特丽夏树,减少匹配的单词频率的过程。

(2)。添加一个前缀标记的判断,和最大匹配算法作为一个动态的返回值

(3)。优先的原则基于长词,最大限度地和最大长度的切分,更好地解决了歧义问题,来弥补最大的子字分割算法和算法。

(4)。只要字符串深度的树长和深200以上的内部节点的帕特丽夏树的哈希索引的第一个字符,使得帕特丽夏树切分较小。

一种改进中文分词算法的想法

在本文中,机械算法的分词方法是基于复杂的思维方式。所谓复方,相当于中药在复方中的概念,不同的药物一起治疗一种疾病。同样,对于中文的文字识别,它需要各种各样的算法来处理不同的问题。没有结论能证明那种分词算法的精度最高。对于任何一个成熟的系统,它是不可能依靠一个特定的算法来实现的,我们需要不同的全面的算法,以满足不同的应用。海量的技术分词算法应用于亚词汇的复合,是全球最大的搜索引擎谷歌和最大的中文搜索引擎百度采取的集成各种算法的切分算法。我们在项目中提出了基于最大和最多切分算法的想法。

通过以上分词算法的分析,我们知道了不同的应用,不同的侧重点,对分词功能的要求也不一样。搜索引擎的需求是将词语尽可能多地分出来,专业搜索引擎需要专业化。因此,针对不同的应用,采用不同的中文分词策略,影响不同策略的中文应用。本论文所设计的中文分词是全文检索中的一部分。我们应该有良好的搜索经验,综合分析中文分词策略,我认为应该符合以下三个基本原则,并能取得平衡:

使得建立索引迅速并且搜索更快。

用户要针对中文分词词的成分原因,总是排除在搜索结果之外。

不要将用户想要的文章研磨在不想要的文章之中。

在本文中,使用一种基于分离的最大和最多字的分词算法。这个分词算法的分词过程的简短描述过程如下:

1.读取待分词字串。

2.读取第一个字,并且记录位置。

3.读取第二个字,记录在第一个字以后

4.查询字典,并且字典给出该词是否是最长词,如果不是最长字序列,将字序列长度加一,回到步骤3,如果是,那么将这个词后的第一个汉字作为起始点,执行步骤2

5.最终词典得到的分词结果是最大长度的分词。

分词算法解决问题的主要途径是通过如下:

自定义分词词典解决规划问题,定义一个专业的字典,收集了许多本专业的子词典,以满足专业需要的切线点。

通过分词算法来解决歧义问题,依靠字典,根据最大分词算法和一个最大可能数的有意义的分词,保证了交叉歧义和组合歧义的解决方案的问题。

在本文中,用户需要,尽可能搜索出尽可能多的语句,最大限度地提高需要保证用户可以找到的话,单词切分是关键的一步。下一步是如何输出排序的单词,使用优化算法,根据用户需要输出结果是系统的最佳指标。单词是一切的前提,排序是关键,我们不能依赖于分词步骤就解决所有问题。

结论

中文分词是中文信息处理系统的基础,具有非常广泛的实际应用。从基本的输入系统,如智能语句输入、语音输入、手写输入;文字处理、文本校对、简体/繁体转换、语音注释;和语音合成、文本检索、文本分类、自然语言接口,自动提取等,处处使用着分词系统。从中文信息处理系统的角度来说,它一直是一个伟大的进步。但我们仍然致力于开发新的应用。如:汉语文本的自动文摘、索引和检索、汉语语音合成、汉语自然语言界面等。中文分词系统作为中文信息处理系统的基石,具有非常广泛的应用。通过深入地研究技术,开发出高质量、多功能的分词系统,将促进中文信息处理系统的广泛应用,在不久的将来。换句话来说,中文分词也提高了中文软件的处理能力,这将使计算机用户日常工作的效率提高。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[28811],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。