A Morphological Analyzer Using Hash Tables
in Main Memory (MAHT) and a Lexical Knowledge Base
Francisco J. Carreras-Riudavets, Juan C. Rodriacute;guez-del-Pino, Zenoacute;n Hernaacute;ndez-Figueroa, and Gustavo Rodriacute;guez-Rodriacute;guez
Departamento de Informaacute;tica y Sistemas,
Universidad de Las Palmas de Gran Canaria, 35017 Las Palmas, Spain
Abstract. This paper presents a morphological analyzer for the Spanish language (MAHT). This system is mainly based on the storage of words and its morphological information, leading to a lexical knowledge base that has almost five million words. The lexical knowledge base practically covers the whole morphological casuistry of the Spanish language. However, the analyzer solves the processing of prefixes and of enclitic pronouns by easy rules, since the words that can include these elements are much and some of them are neologisms. MAHT reaches a processing average speed over 275,000 words per second. This one is possible because it uses hash tables in main memory. MAHT has been designed to isolate the data from the algorithms that analyze words, even with their irregular forms. This design is very important for an irregular and highly inflectional language, like Spanish, to simplify the insertion of new words and the maintenance of program code.
Keywords: Morphological analysis, lemmatization, lexical knowledge base, computational linguistics, natural language processing.
Introduction
The automated morphological analysis is a fundamental task [16], [34] to solve important issues of natural language processing and computational linguistics, such as: PoS-tagging, word sense disambiguation, text summarization [21], information retrieval [7], [16], information extraction [5], etc.
The purpose of morphological analysis is to identify for any word its canonical form or lemma ―lemmatization―, its grammatical category (name, adjective, verbhellip;) and its inflection (gender, number, diminutivehellip;) [16], [27], [32], [33]. The result of the morphological analysis frequently offers a multiple answer: if a word can correspond with more than one canonical form and category, or with different inflections of the same canonical form, the morphological analysis must provide all the possibilities. This multiplicity generates an ambiguity when we want to apply the analyzer, for example, to a PoS tagger. A part-of-speech tagger can assign the correct interpretation to the word-form, taking context into account [16].
A task related to morphological analysis is the synthesis or morphological generation [7], [16], [22], [35], consisting of given a canonical form and some characteristics of desired inflection, a word is obtained.
Many authors have recognized the difficulty that involves the automatic processing of highly inflectional and irregular languages such as Spanish, Polish, German, French and Finnish,hellip; [10], [28], [32], [35]. This means that the development of automatic tools of morphological processing is complicated and moreover necessary. For example, in the Spanish language, most of the frequently used words belong to the following groups:
- Over 3,000 irregular verbs: ir, ser, estar, tener, poder, ponerhellip;
- Over 8,000 canonical forms change gender or number affecting the written accent of the word: alemaacute;n/alemana, compaacute;s/compaseshellip;
- Over 2,000 canonical forms change gender or number in an irregular way:
priacute;ncipe/princesa, cualquier/cualesquierahellip;
- Over 1,400 canonical forms have irregular suffixes: nariz/narigoacute;n, azuacute;car/azuquitahellip;
- Over 100 adjectives have the irregular superlative: pobre/paupeacute;rrimo,
sabio/sapientiacute;simohellip;
Related Works
Many works on automated morphological analysis base their solution on Koskenniemis two-level morphology model [19], which was initially developed in order to process Finnish. It is a system of rules that, when they are executed in parallel, establishes a one by one transition between the surface level symbols and those of the lexical level. Jointly with the application of the rules, the model explores a lexicon that serves as a lexical filter. In principle, the Koskenniemi model (1983) is independent of the language. However, some authors indicate that, in any case, it requires developing the rules adapted for each language [33]. Other authors point out some difficulties to apply the model to languages like Spanish or the Slavic languages, which present a high number of alterations in the stem [35].
Another method to confront morphological analysis, which can be very effective in applications for natural language processing, is using a lexical knowledge base [28] and not using rules. For example, the works of Sgarbas [33] use a directed acyclic word graph [26] to represent words, stems and grammatical information, so that it simplifies the analysis and synthesis process by searches in the graph, increasing the speed. The authors apply this method, which is independent of the language, to the morphological analysis of the Greek modern language. According to them, it is much faster ―10,000 words per second― than a two-level morphological analyzer. The two-level morphological analyzer with the same number of stems only processed
20 words per second. The authors point out that the data structure size is a disadvantage.
The optimization of storage space has also interested other authors who work using a lexical knowledge base, due to the space restrictions that existed years ago. This has led them to develop methods based on segmentation algorithms. These algorithms divide the word in smaller meaningful
剩余内容已隐藏,支付完成后下载完整资料
形态学分析仪在主内存(MAHT)和词汇知识库通过哈希表
Francisco J. Carreras-Riudavets, Juan C. Rodriacute;guez-del-Pino, Zenoacute;n Hernaacute;ndez-Figueroa, and Gustavo Rodriacute;guez-Rodriacute;guez
摘要:本文提出了西班牙语(MAHT)形态分析仪。该系统主要是根据词的存储和其形态的信息,构成有近500万字的词汇知识库。词法知识库几乎涵盖了西班牙语的整体形态。分析仪不仅解决了前缀,并通过简单的规则以及附属代词的处理,解决了里面很多元素,而且其中有些是新词。 MAHT能达到每秒超过275,000字的处理平均速度。这是有可能的,因为它在主内存中使用哈希表。 MAHT已被设计为将数据进行分析,即使需要使用它们的不规则形式的算法隔离。这种设计对不规则的并且高度屈折话的语言很适用,如西班牙语,简化新词插入,程序代码的维护。
关键词:形态分析,词形还原,词汇知识基础,计算语言学,自然语言处理。
1.介绍
自动化形态分析是一项基本任务,来解决自然语言处理和计算语言学的重要问题,如:POS-标注,词义消歧,文摘,信息检索,信息提取等。形态学分析的目的是确定任何规范形式的词或引理,及其语法类别(姓名,形容词,动词......)及其拐点(性别,号码,身材......)。形态学分析的结果经常提供多个答案:如果一个字可以以多于一个的标准形式类别,或具有相同的规范形式的不同屈折变化对应,在语形学分析必须提供所有的可能性。当我们想要应用分析,例如,统一分配给POS这种多重产生歧义。部分的词可以分配正确到解释字状,和上下文考虑。有关形态学分析的任务是合成形态学代,由给定的标准形式和期望的拐点的一些特性,得到一个字。许多学者认为,涉及高度屈折和不规则的语言,如西班牙语,波兰语,德语,法语和芬兰的自动处理的难度很多。这意味着它们形态学处理的自动工具的开发是复杂而且必要的。例如,在西班牙语言,大多数常用的单词属于以下组
bull;超过3000不规则动词:ESTAR,poder,PONER...
bull;超过8000标准型改变特性影响书面口音:alemana, compases...
bull;超过2000标准型改变特性和规则的方式:cualquier/ cualesquiera...
bull;超过1400标准型有不规则的后缀:nariz/narigoacute;n,AZUCAR/ azuquita...
bull;超过100个形容词有不规则的最高级:POBRE/paupeacute;rrimo,Sabio/sapientiacute;simo...
2.相关语言
自动化形态对许多作品是根据他们对科斯肯涅米两级形态模型来分析的,这是最初以处理芬兰开发来解决的,它是一个规则体系,当它们以平行方式执行,建立一个通过表面电平的符号来实现和那些词汇层面之间的一个过渡。规则的应用和模型的探讨来作为词汇滤波器的词典。在原则上,科斯肯涅米模型(1983)是独立于语言的。然而,一些作者指出,在任何情况下,它需要开发适于每种语言的规则。其他作者指出一些困难的模型应用到像西班牙或斯拉夫语,它是存在于茎高数的语言。
另一种方法来对抗形态分析,其在自然语言处理的应用是非常有效,是使用一个词汇知识库,但不是规则使用的,Garbas的著作使用有向无环词图来表示茎和语法信息,因此,它简化了在图中的搜索分析和合成过程,提高了速度。作者应用此方法,是独立于希腊现代语言的形态分析。据他们说,它是比两级形态学分析器快得多。两级形态学分析器具有相同数量的杆仅能处理20个字每秒。作者指出,数据结构大小是不利的。存储空间的优化是以词汇知识基础,这是因为几年前存在的空间限制让其他作者也很感兴趣。他们开发基于分割算法。这些算法分成更小的有意义的组成部分,其中有相似之处语言意义的语法词,并单独存放这些组件。Baldzius创造了茎和后缀的知识基础,它通过现代希腊语包括构词规则。有了这个数据库,他的系统可以识别约1,000,000的语句,虽然它没有指定的识别速度。 Papamitsos开发了另一项,他并没有指定的语句,它能够识别宇宙,而写明精度98.2%相同希腊语,超过1879000希腊形式语料库。Sedlaacute;ček使用一个线索结构存储茎捷克语言,以便采取其前缀共享的优势。线索作为最小有限状态自动机以减少所需的空间的目的。以这种方式,他发现具有约2兆字节由茎,后缀和形态模式组成的数据库,它可以是能够识别和生成捷克语,由原始科斯肯涅米模型(1983)中也使用了这种尝试,这是存储公共前缀字符的字符串的一个很好的结构。STILUS是已经为西班牙语开发的词汇的平台。 STILUS采用了运行时词汇是同质异晶体的集合,还有一个小的规则组件。这种模式允许完全基于语素串联构词,通过基于特征的统一的语法驱动。 STILUS没有指定的识别速度。西班牙词的自动变形器和Lemmatizer(AILESW)也适用于分离茎和后缀。 AILESW使用线索结构来存储的后缀,被存储在一个压缩哈希表外部存储器中,从而降低了它的加工平均速度。 AILESW的用处超过4,900,000的系统,其中包括不同的字典和书籍:Diccionario,Diccionario Lengua DiccionarioLenguaDiccionario Lengua,Diccionario USO,DiccionarioSinoacute;nimosyuml;Antoacute;nimos,DiccionarioIdeoloacute;gico Lengua,DiccionarioVocesUSO Verbos Castellanos的Conjugados 。 AILESW预期有15000字对应的姓氏与人,动物,事物或地方的专有名词。它还包括从口头分词,其中提到的字典不包括衍生的形容词。
3.词汇知识库
主要使用的词汇知识库,而不是应用规则减少涉及一种高度屈折和不规则语言的处理的难度。形态分析仪(MAHT),即我们提出,使用带有4980387西班牙语单词词汇知识基础。这个数据库包括由桑塔纳产生,它已经与西班牙皇家科学院公布修改近500万字活用咨询来源规范化形式时,产生主要以自动方式和一些不规则形式手动在知识库引入。对于动词产生的屈折变化是:简单的结合,分词的活用,口头的形容词和动名词的减少。对于非语言形式产生的屈折变化是:
bull;实词,形容词,代词和文章的性别和数量。
bull;通过实词性的改变受制于人。
bull;最高级的形容词和副词。
bull;为最高级的adverbialization。
bull;辅助和贬义的实词,形容词和副词。
bull;所有语法范畴变异图。
bull;在不变的形式,如介词,连词,感叹词和一些新词起源于其他语言。各种各样的由数学识别的单词提高到其它已知的形态学分析仪词法知识库包括对每个字和拐点相对于它的规范形式的识别和生成必要的形态信息。我们存储组织的关系型数据库这使得信息的维护和新词的插入更容易的词汇信息。最后的操作独立于数据已经存储了的认可和生成算法。这一事实提高了系统的完整性。包括在数据库中,根据该测试结果,其中我们提出进一步的,包括广泛西班牙语进行合适的形态学处理,包括在数据库中的信息,我们构建了一些具体结构,在下面的部分中描述的,以达到与目前的处理器和存储器的资源的最大性能。这是必要的,因为甲骨文,由于大多数通用的商业数据库系统,利用了B-树作为它的索引的基本结构。这种结构为内部系统的集成形态学分析器,用于自然语言处理提供最佳的响应速度。具体地,试验相同的条件MAHT下进行的,结果表明,识别速度为每秒低于3000字,它与本文中提出的哈希表达的速度快很多。
4数据结构
哈希表是用于处理大词典的一个很好的数据结构。 MAHT操作数据的结构是由两个哈希表。程序加载来自从Oracle数据库导出的信息而生成的单个文件RAM存储器:第一个包括单词,其拐点和对应于它的规范形式的密钥,第二个的键,包括标准形式,它的主键,它的语法范畴。哈希表的性能取决于所使用的哈希函数。由于数据集创建结构之前已知的,我们获得最佳性能的目的,测试了不同的散列函数。测试了基于乘法方法识别哈希函数。实验的结果证明,存哈希表在针对罗摩克里希说使用的方法,它必须是由于硬件进化,我们已经取得的平均意味着, MAHT执行两个以找到单词。其中s是处理,S [n]是占据在字中的无数位置的字符,b表示位移的基底应用到每个字符,m为使用的数字,以避免限溢流和ltable是哈希表的大小。我们使用三个素数,P1 =252551843,P2 =84850729和p3=2020251127,以选择一个通用散列函数.由于在盘上的空间不是问题,我们没有考虑压实的结构。此外,这种改进的空间管理将不涉及识别速度的增大。我们还没有进行方法前散列启发式,哈希表所述的方法缓存意识的分辨率,因为它们是不相关的速度,施加到一个大的哈希表有效散列函数,除了极少数的碰撞。在4980387字存储在数据库中,并转移到前面提到的哈希表,不包括与附属代词或前缀新词。这将大大增加数据库的大小。我们已经决定通过纳入计划规则的手段来处理它们。实施规则在佩雷斯中定义。然后进行识别,首先为在结构中字的程序搜索,以检查附属字代词的存在,并且重复检查代词,如果这些搜索不成功,并通过去除他们所获得的字来完成以前的搜索,前缀的处理仅被应用于新词。性能应用这些规则时的损失是由识别功率增益补偿。对于附属的代词的处理,我们已经更新了识别附属的代词规则,调整口头单音节的西班牙新正字法。西班牙新正字法说,口头单音节,推迟附属的代名词,已按照西班牙的加重规则的图形口音。之前,口头单音节保持了图形口音加上附属的代词-pidioacute;pidiolepidioacute;lecayosecayoacute;se。规则承认附属的代词,以及前缀和放在前面的元素,使用单独的线索,其宗旨是开展相应削减非识别单词。
5附属的代词
在附属的代词属于都加入到口头形式末尾的一句话:miacute;rala,llaacute;mame...在西班牙语言,我们可以彼此组合这些代词运用的秩序规则,其中规定本身是在前面,然后按照第二人,然后第一人和第三人一直持续下去。 MAHT使用线索结构到附属字代词存储在主存储器中。它允许寻找附属的代词。组合编号引起在西班牙语有用的功能例如, comieacute;ndosemelo作为comiendoSEtraacute;enoslo TRAElleacute;vatela lleva TE LA 。如今,在西班牙推迟的仅仅是不定式频繁动名词,祈使句形式和劝勉肯定虚拟语气。如果我们考虑可以加入西班牙 关于推迟clitics口头形式和附属的代词的有用的组合,识别MAHT的容量要达到4200多万字 约14000动词乘以101代词组合和乘以约30口头形式提出。
6.前缀和先前的元素
该prefixation是西班牙语单词形成通过加入由前缀或放在前面的元件到一个字的左侧的装置中作为最常见的方法之一。 MAHT承认precaacute;lculo作为预,extrabarato作为预算外,barato,pseudocultura作为伪文化宫,微型激光器的微型激光前缀被添加,通常不产生语法变化类别;通常,他们阐明正确的,修改,最后得到他们引导词的含义。然而,放在前面的元件做改变词的含义与它们接合,以客观或主观的方法。MAHT承认已经将已增加了一些它的基础还是其语义值是通用的,几乎所有的语法类[11]适用性贡献一代词或副词意识放在前面元素的前缀,以及那些新词。 MAHT处理以下放在前面的元素:acro-,ambi-,andro-,anto-,astro-,bati-,bien-,cachi-,cardi-,ciclo-,circa-,crio-,crono-,cuasi-,diali-,etno- ,FIL-,filo-,foto-,hidro-, metro-,,moto-,narco-,per-,piro-,pluri-,por-,preter-,psico-,seudo-, sono-,tatara-,tecno-。正如在附属字代词,MAHT使用线索结构的前缀存储在主存储器中。它允许寻找在词语的前缀的存在非常快。如果我们假设只对单词的一半是合乎逻辑的添加前缀放在前面的元素,MAHT可以识别约200万前缀和放在前面的元素的话。此外,如果我们考虑到西班牙语前缀是彼此组合的,具有前缀或由MAHT处理可以提高4000亿放在前面的元素的字的数量。我们假设只有前缀和放在前面的元素来计算该数的10%的话。 MAHT也承认同时添加前缀和附属的代词口头形式-precomieacute;ndoselas comieacute;ndo SE LAS-。
7.结果
执行所提出的解决方案的性能测试之前,我们已经检查了在系统存储的字识别正确工作。为此,我们开展了两项测试:
1.要识别的所有单词,并且检查的结果与在关系数据库中存储的形态信息相匹配。
2.认识所有的字,并检查结果与西班牙语单词的自动变形器已遍及十余年互联网测试的匹配。
其他作者已经表示形态学分析的需要经常链接到涉及文本的分析,超出的独立形式的词语学习任务。出于这个原因,我们认为适当的衡量MAHT分析两文本语料库和一小部分高品质的西班牙文本中的表现:
1.文本语料库分布在9,255西班牙文本文学文本65%:故事,小说,戏剧,诗歌,和其他,非文学文本35%:文学,政治,历史,电影,哲学和其他。
2.西班牙新闻文本的语料库 - 文化和分布在章程细则。
3.从1970年全年获得的诺贝尔文学奖五个西班牙作家的文学文本:
文本的分析语音的任务,因为分析仪的结果,必须加以补充,以解决含糊和不识别的单词的分类形态分析仪识别它所知道。模糊度是由于有些字可以对应于一个以上的茎。由于我们的数据库只包括最常见的专有名词,再加上统一的缩略语,我们已经开发出适用于三个简单的上下文规则;允许识别大多数。规则分析并在协议中使用资本和小写字母与学术规则。 MAHT不能解决任何字可以有歧义的,因为它不是一个零件的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[30984],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。