英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
跳跃的NLP曲线:自然语言处理综述
自然语言处理(NLP)是理论驱动的范围下,用于人类语言自动分析和表示的计算机技术。NLP研究已经从打卡和批量处理的时代(其中一条句子的分析可以占据 7分钟)演变到谷歌和“类谷歌”的时代(其中数百万的网页可以在不到一秒钟的时间内处理)。 这篇综述文章立足于NLP研究的最新发展,在新的视角看待NLP技术的过去,现在和未来。 借鉴了业务管理和营销预测领域的“颠覆曲线”范例,本调查文章将NLP研究的演变重新解释为三个重叠曲线的交集,即语法,语义和语用曲线。 这将最终引导NLP研究演变成自然语言理解。
1.简介
在互联网的诞生到2003年,也就是MySpace,Delicious,LinkedIn和Facebook等社交网络诞生的年代,在网络上只有几十亿字节的信息。 现在,每周都会创建相同数量的信息。 社交网络的出现为人们提供了新鲜内容的共享服务,当几百万的其他人连接到万维网时,使他们能够以时间和成本效益的方式创建和分享自己的内容,想法和意见。 然而,这种大量的信息主要是非结构化的(因为它是专门为人类消费而生产的),因此不能直接进行机器处理。 文本的自动分析涉及到对机器的自然语言的深刻理解,这是仍然离我们非常遥远的现实。
到目前为止,在线信息检索,聚合和处理主要基于基于网页的文本表示的算法。这样的算法非常好地检索文本,将它们分成部分,检查拼写和统计数字的数量。然而,当谈到解释句子和提取有意义的信息时,它们的能力是非常有限的。自然语言处理(NLP)实际上需要高级的符号能力(Dyer,1994),包括:
动态绑定的创建和传播;
递归操作,构成结构;
获取和访问词汇,语义和情景记忆;
多个学习/处理模块的控制和这些模块之间的信息路由;
感知/运动经验中的基本语言构造(例如,对象和动作)的接地;
抽象概念的表示方法。
所有这些能力都需要从单纯的NLP转变为通常所说的自然语言理解(Allen,1987)。 今天,大多数现有的方法仍然基于文本的语法表示,一种主要依赖于文字同时出现频率的方法。 这种算法受到以下事实的限制:它们只能处理他们可以“看到”的信息。 作为人类文本处理器,我们没有这样的限制,我们看到的每一个词都能激活语义相关概念,相关剧集和感官经验的级联,所有这些都使复杂的NLP任务,如词义消歧,文本包装和语义角色标签,以快速和轻松的方式完成。
计算模型试图通过模拟人类大脑处理自然语言的方式来弥合这种认知缺口,例如通过利用未在文本中明确表达的语义特征。计算模型对于科学目的(例如探索语言交际的本质)以及实用目的(例如实现有效的人机通信)都是有用的。传统的研究学科没有工具来完全解决语言理解和生产工作的问题。即使你结合了所有的方法,一个全面的理论将太复杂,不能使用传统的方法来研究。然而,我们可能能够实现这样复杂的理论,如计算机程序,然后通过观察他们的表现来测试他们。通过看到它们失败的地方,我们可以逐步改进它们。计算模型可以提供关于人类行为的非常具体的预测,然后可以由心理语言学家探索。通过继续这个过程,我们可能最终获得对人类语言处理如何发生的更深刻的理解。实现这样的梦想将需要前瞻性心理语言学家,神经科学家,人类学家,哲学家和计算机科学家的共同努力。
与之前关于NLP研究的特定方面或应用的调查(例如评价标准(Iones&Galliers,1995),基于知识的系统(Mahesh,Nirenburg,&Tucker,1997),文本检索(jackson&Moulinier,1997) 和连接主义模型(Christiansen&Chater,1999))不同,本文综述了NLP研究三种不同范式的演变:即词袋,概念袋和袋子——评估模型。 借助于业务管理领域的“跳跃曲线”这一概念,本调查文章解释了NLP研究如何以及为什么逐渐从词法语义向组合语义转变,并提供关于下一代基于叙述的NLP技术的见解。
本文的其余部分组织如下:第2节介绍了NLP研究的历史背景和不同的思维方式;第3节讨论NLP技术的过去,现在和未来的演进; 第4节描述了传统的基于语法的NLP方法;第5节说明了新兴的基于语义的NLP方法;第六部分介绍了叙事理解的开创性作品; 第7节提出了关于当前NLP技术演变的进一步见解,并提出近期未来的研究方向;最后,第8节总结了本文,并概述了NLP研究的未来领域。
2.背景
自从50年代成立以来,NLP研究一直专注于诸如机器翻译,信息检索,文本概括,问题回答,信息提取,主题建模,以及最近的意见挖掘等任务。 在早期进行的大多数NLP研究集中于语法,部分是因为语法处理显然是必要的,部分是有通过隐含或明确支持语法驱动处理的想法。
虽然NLP的语义问题和需求从一开始就很清楚,但研究团体采用的策略是首先解决语法问题,以便更直接地应用机器学习技术。然而,有一些研究人员集中于语义,因为他们认为它是真正具有挑战性的问题,或者假设语义驱动处理是一个更好的方法。因此,例如,Masterman和Ceccato的组利用语义类别和语义案例框架来开发语义模式匹配,特别是在Ceccato的工作(Ceccato,1967)中,外部知识被用于扩展语言语义,以及语义网络作为一种知识表示的设备。后来的工作认识到需要外部知识来解释和响应语言输入(Minsky,1968年),明确地强调通用语义与表示语义驱动处理的案例结构的形式(Schank,1975)。
自此之后,最流行的表示策略之一是一阶逻辑(FOL),一个由公理和推理规则组成的演绎系统,可用于形式化丰富的关系谓词和量化(Barwise,1977)。 FOL支持语法,语义和一定程度的语用表达。语法指定将要被排列的符号组的方式,使得认为符号组被适当地形成。语义规定了良好形式的表达式是什么意思。语用学指定如何利用语境信息来提供不同语义之间的更好的相关性,这对于诸如词义消歧的任务是至关重要的。然而,已知逻辑具有单原子性的问题。只有当信息被添加到知识库中时,所要求的句子集合才会增加,但是这会带来违反人类推理的共同属性的风险——改变主意的自由和灵活性。诸如默认和线性逻辑的解决方案可以用于解决这些问题的部分。默认逻辑由Raymond Reiter提出,以形式化默认假设,例如“所有鸟飞”(Reiter,1980)。然而,默认逻辑在大多数情况下是真实的,而对于这些“一般规则”的例外,例如“企鹅不飞”的事实是假的时,问题就出现了。
另一种用于描述自然语言的流行模型是生产规则(Chomsky,1956)。生产规则系统保持正在进行内存处理的工作内存。该工作内存是易变的,并且又保持一组生产规则。生产规则包括先前条件集合和随后的一组动作(即IF lt;条件gt; THEN lt;动作gt;)。生产规则系统的基本操作涉及三个步骤的循环(“识别”,“解决冲突”和“工作”),直到没有更多规则适用于工作内存为止。步骤“识别”识别由当前工作内存满足先前条件的规则。所识别的规则集也称为冲突集。步骤“解决冲突”研究冲突集,并选择一组合适的规则来执行,步骤“动作”简单地执行动作并更新工作内存。生产规则是模块化的,每个规则独立于其他规则,生成规则系统具有简单的控制结构,并且规则易于被人理解,这是因为规则通常来源于对专家行为或专家知识的观察,因此在编码中使用的术语规则倾向于与人类理解产生共鸣。然而,当生产规则系统变得更大时,存在可伸缩性的问题;需要大量的维护来维护具有数千条规则的系统。
另一个突出NLP模型的实例是本体网络语言(OWL)(McGuinness&Van Harmelen,2004),一个基于XML的词汇,它扩展了资源描述框架(RDF),为本体表示提供了更全面的集合,例如类的定义,类之间的关系,类的属性,以及类与它们的属性之间的关系的约束。 RDF支持对资源进行阐述的主体谓词模型。基于RDF的推理引擎已经被开发用于检查语义一致性,这有助于改进本体分类。一般来说,OWL需要严格定义静态结构,因此不适合表示包含主观置信度的知识。相反,它更适合于表示声明性知识。此外,OWL的另一个问题是它不允许时间相关知识的简单表示。
网络是另一个众所周知的NLP的方式。例如,贝叶斯网络(Pearl,1985)(也称为信念网络)提供了在许多相关假设之间表达联合概率分布的方法。所有变量使用有向无环图(DAG)表示。弧是两个变量之间的因果关系,前者的真实性直接影响后者的真实性。贝叶斯网络能够表示主观的置信度。该表示明确地探讨了先验知识的作用,并且结合了事件可能性的证据。为了计算置信网络的联合分布,需要知道每个变量的数学处理误差,在概率网络中确定置信度中的每个变量是很难的。因此,也难以增强和维护大规模信息处理问题的统计表。贝叶斯网络也具有有限的表达性,其仅等价于命题逻辑的表达性。出于这个原因,语义网络更常用于NLP研究。
语义网络(Sowa,1987)是用于表示互连节点和弧的模式中知识的图形符号。定义网络关注于概念和新定义的子类型之间的ISA关系。这种结构的结果称为泛化,它反过来支持将超类型定义的属性复制到其所有子类型的继承规则。定义网络中的信息通常被假设为真。另一种语义网络是断言网络,其旨在断言命题,并且其包含的信息被假定为偶然真理。偶然真理并不适用于默认逻辑;相反,它更多地基于人的常识的应用。该命题也有足够的理由,其中的原因需要命题,例如“石头是温暖的”,充分的理由是“太阳照在石头上”和“无论太阳照耀在什么上都是温暖的”。
语义网络的思想源于在20世纪60年代初期的Simmons(Simmons,1963)和Quillian (Quillian,1963),并在20世纪80年代后期由Minsky进一步发展。在他的心理学理论(Minsky,1986)中,人类智慧的魔力来源于我们丰富的多样性——而不是来自任何单一的完美原则。Minsky理论认为,心灵是由许多小部分组成,他称之为“代理人”,每个小部分都没有思想,但一起工作时,能够导致真正的智慧。这些代理团体或“代理”负责执行某些类型的功能,例如记住,比较,概括,例证,类比,模拟,预测等。Minsky的人类认知理论在人工智能(AI)社区受到了特别热情的欢迎,并诞生了许多尝试建立NLP任务的常识知识库。最具代表性的项目是:(a)Cyc(Lenat&Guha,1989),Doug Lenat的基于逻辑的常识知识库; (b)WordNet(Fellbaum,1998),Christiane Fellbaum的词义通用数据库; (c)Thought-Treasure(Mueller,1998),Erik Mueller的故事理解系统;和(d)开放思想共同感知项目(Singh,2002),第二代常识数据库。最后一个项目的突出之处在于,知识以自然语言表示(而不是基于正式的逻辑结构),信息不是由专家工程师手工制作,而是由在线志愿者自发插入。今天,开放思想共同感知项目收集的常识知识正被利用于许多不同的NLP任务,如文本感知(H. Liu,Lieberman和Selker,2003),随意交谈理解(Eagle,Singh,&Pentland, 2003),意见挖掘(Cambria&Hussain,2012),故事讲述(Hayden et al。,2013)等等。
7.讨论
词语和概念层面的NLP方法只是自然语言理解的第一步。 NLP的未来在于生物学和语言学的动机计算机范式,确保叙事的理解和“感觉”。计算机智能潜在地具有在NLP研究中发挥重要作用的巨大可能性。例如,模糊逻辑与NLP任务有直接的关系。(Carvalho,Batista,&Coheur,2012),像情感分析(Subasic&Huettner,2001),语言摘要(Kacprzyk&Zadrozny,2010),知识表达(Lai, Wu, Lin, amp; Huang, 2011)和词义推理(Kazemzadeh,Lee,&Narayanan,2013)。人工神经网络可以帮助完成NLP任务,如歧义解决(Chan&Franklin,1998; Costa,Frasconi,Lombardo,&Soda,2005),语法推理(Lawrence,Giles,&Fong,2000) ,Socher,&Manning,2013)和情感识别(Cambria,Gastaldo,Bisio,&Zunino,2014)。进化计算可以用于诸如语法演化(O#39;Neill&Ryan,2001),知识发现(Atkinson-Abutridy,Mellish和Aitken,2003),文本分类(Araujo,2004)和规则学习(Ghandar, Michalewicz,Schmidt,To,&Zurbruegg,2009)。
尽管存在潜力,然而,直到现在,使用计算机智能技术在NLP领域没有那么活跃。第一个原因是NLP是一个巨大的领域,目前正在解决几十个不同的问题,其中存在具体的评估指标,它是不可能将整个领域降低到一个特定的问题,正如早期作品中所做的那样(Novak,1992)。第二个原因可能是在尚未使用计算机智能技术的情况下,一些有力的技术,如支持向量机(Drucker,Wu,&Vapnik,1999),内核主成分分析(Scholkopf等人,1999),潜在的Dirichlet分配(Mukherjee&Blei,2009)广泛地使用NLP数据集,并得到显著结果。然而,所有这些基于字的算法受到以下事实的限制,即它们只能处理他们可以“看到”的信息,因此,将迟早达到饱和。相反,计算机智能技术可以通过模拟人类大脑处理自然语言的方式(例如,通过利用未在文本中明确表达的语义特征)来超越文档的句法表示,因此具有更高的潜力来解决互补NLP任务。例如,可以在同一NLP模型内利用计算机智能技术的整体来在线学习自然语言概念(通过神经网络),概念分类和语义特征泛化(通过模糊集)以及概念意义演化和连续系统优化(通过
全文共6741字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[144270],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。