应用机器智能的当前趋势外文翻译资料

 2022-08-09 20:13:22

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


应用机器智能的当前趋势

介绍

大约十年前,即使人们开发越来越多的词,“人工智能”这个词还是一个禁忌。最近机器学习尤其是人工神经网络上取得的成功,又激起了人工智能方面的兴趣。最终这引起了人工智能、机器学习和人工神经网络的热潮,和他们在流行社会媒体上的含义一样。这个热潮建议人们把人工智能改称为“替代智能”。因为除了人类智能外,还有其他形式的智能。“机器智能”这个词即使不新鲜,他从我们的理解上更加合适,因为不管它基于人工神经网络,机器学习还是老式的人工智能,它强调我们用一些智能来建立机器。

2014年,我们在达堡开了一系列关于公司中语义应用和语义技术的会议,那次会议也产生了很多书籍和文章。我们发现有必要调整会议的范围来将当前的语义方法和机器学习联系起来。

这篇文章总结了2018年会议的主要结果它从实际应用中的智能开始,然后讲了机器智能目前的趋势:自然语言处理,结合符号和非符号方法,数据质量和过程本体论。

公司应用对原型研究提出了不同需求,要满足高性能,可用性和可维护性的需求。我们这篇文章重点是公司应用。在这部分,我们例举了保险和医药界的典型要求。

结合符号和非符号方法

符号方法基于机器可读以及人类可读(“符号”)知识表示。从1950年代中期到1990年代中期,符号方法在人工智能研究中占主导地位。符号化机器智能最成功的应用是使用产生式规则的专家系统。杰出的技术包括经典的人工智能语言(如Prolog和Lisp),以及业务规则引擎和语义Web技术。出于性能原因,构建了专用硬件,例如Lisp机器,它们能够将Lisp作为本机机器语言执行。语义Web标准OWL采用描述逻辑,允许使用推理程序来推断本体信息,而RIF支持基于Rule机器学习的Web规则交换。

人工智能的大肆宣传是由日本国际贸易省和日本国际贸易部1982年发起的第五代计算机系统计划引发的。它引领了大量人工智能技术的发展。大量的人工智能研究人员和开发人员在诊断,咨询,评级等领域进行了项目。在1990年代,热潮过去了(“ 人工智能冬季”)。归因为期望值太高,而此时在成本效益方面的结果还不够。

非符号方法在人工智能研究中有着类似的悠久历史,其历史可以追溯到1940年代有关神经计算的最初思想。最突出的例子是人工神经网络,它可以模拟大脑的基本物理(神经)过程。在非符号方法方面取得了巨大的进步,同时,它已成为人工智能的主要分支。它们包括例如人工神经网络,深度学习和机器学习模型,例如支持向量机,贝叶斯网络,HiddenMarkov模型等。

近年来,在诸如GPU之类的硬件先进技术上似乎发现了一种新的人工智能热潮,它可以实现诸如深度学习之类的高效,非符号化人工智能方法。公司和国家已经将机器学习视为几乎在每个IT应用领域中都具有竞争优势的领域。数十亿美元投资到了人工智能项目以及公司和人工智能专家的战略投资中。最近取得的突破的结果是,伴随着关于人工智能后果的更加激烈的伦理讨论。

两种方法(符号方法和非符号方法)都有优点和缺点,它们彼此互补。非符号方法在噪声方面更健壮,并且可以提供更好的结果,尤其是在前期知识很少的领域。他们通常需要大量的训练数据,但同时更容易地将其扩展到大数据。然而他们缺乏解释所选解决方案的方法。由于它们基于显式的符号知识表示和推理,推理链可以向人类专家解释。

总之很明显,两种方法的结合可能会带来好处,因此已经进行了相当多年的研究。

贝叶斯网络是一个典型的自然混合方法。贝叶斯网络是一个以状态为节点,条件相关性为边的图。例如,贝叶斯网络可以代表疾病和症状之间的关系(“感冒可能导致咳嗽”)。贝叶斯网络是由人类专家建模的。这是贝叶斯网络的特点。然后,添加有关各个状态及其组合的观察统计数据(例如,“有多少名感冒患者咳嗽了?”)。这是统计方面的,因此是非符号方面。根据贝叶斯关于条件概率的定理,贝叶斯网络现在可以用于计算某些疾病(根据患者症状)的概率。

非符号机器学习方法可以增强符号方法。例如,产生式规则和关联规则可能由数据挖掘方法建议并由人类专家验证,归纳逻辑编程支持规则学习,文本挖掘可用作本体学习的基础。它也以另一种方式起作用。可以通过使用符号规则系统和本体来改进非符号机器学习方法。例如,通过使用其他背景知识来丰富训练数据,或者通过使用符号知识来测试,验证和解释学习的模型。例如规则的背景知识也可以用在和增强学习结合。近年来,这种方法特别流行例如Alphabet的AlphaZero。

有趣的是,非符号方法的当前成功是否会在未来被符号方法超过和维持有待考察。

自然语言处理的趋势

几十年来,自然语言处理一直是人工智能研究和应用的核心领域。受到1950年代计算机科学的早期成功的启发,科学家和资助组织迅速确信,掌握自然语言理解和机器翻译是下一步的逻辑步骤,应该在几年内实现。但是,这些挑战比最初预期的要困难得多。真正健壮,高质量和通用的自然语言处理系统仅出现了几年。

可用计算能力的不断提高,自然语言数据的丰富以及算法设计的进步所带来的综合影响已深刻地改变了这一领域。如今,自然语言处理已成为许多大公司战略决策中的关键要素,因为它具有支持的潜力、数字产品和服务,并有望帮助降低管理基于语言的信息的成本。最近的一项研究预测,基于自然语言处理的应用和服务的全球市场将从2018年的约30亿美元增长到2025年的超过250亿美元。计算机科学,数据科学和计算语言学的毕业生很可能会找到自己的市场提供了诱人的前景和机会。

自1990年以来,自然语言处理系统的许多突破背后的关键方面是,在各自的算法中采用了非符号方法,这些方法补充并替代了传统的基于规则的符号方法。词性标记和自然语言识别是最早的自然语言处理子领域,这些定量方法已成为事实上的标准,并且到今天为止,大多数其他自然语言处理学科,例如语法分析,机器翻译,语义,文本分类或信息提取被它们深深影响或支配。 Young列出了最近报告的各种自然语言处理任务和深度学习动力系统的结果。当今,许多自然语言处理应用程序都将一种特定于分布语义的技术(“词嵌入”)标记为秘密调料。过去几年中,提交给大型自然语言处理会议的论文数据显示,到2016/2017年,约有24篇论文被发表,70%的人讨论了深度学习的应用。这进一步强调了自然语言处理近年来经历的转型。

基于深度学习的方法取得的令人瞩目的成功可能表明,不再需要基于传统知识的方法。但是,许多专家期望将显式语言知识与非符号神经方法结合使用的需求仍然存在,并且这两种方法将继续相互受益。在工业环境中尤其如此,在这种情况下,可用语料库通常受到大小限制,并且要分析的对象同时具有预先存在的结构化知识库。不需要学习此背景知识,而是可以立即将其导入和使用。

聚类词语义

单词嵌入表示一种通过分布式表示来掌握单词语义的计算方法。传统方法在具有多达数十万个分量的高维向量的单个分量中表示单词的含义,而单词嵌入则使用另一种方法。它们将含义分布在较小维向量的所有成分上(数百个成分的范围内),并使用计算方法确定单词在相应向量空间中的正确位置。在Word2 Vec和GloVe的情况下,所使用的计算方法是以n-grams为单位的fastT ext。尽管后一种方法允许在语法上关联相似的词,但从语义角度来看,前两种特别有趣。

Word2 Vec和GloVe背后的方法是,它们将相似的单词推入相同的区域,而将不相似的单词推入不同的区域,从而在向量空间上强加一个结构。尽管它们的计算完全基于共现,但是这会导致向量空间结构,从中可以通过它们的紧密度(按照欧几里得距离)或相似度(按照余弦向量相似度)来识别高质量的同义词和紧密相关的术语。

如果不存在主要障碍,则可以将此类相似度信息用于知识工程或语义处理目的:可以计算每对单词之间的距离或相似度。因此,需要某种方式来确定应该认为单词与之相关的合理距离或相似性阈值。

可以简单地配置相应的阈值,但是阈值将始终是任意的。但是,第一个实验表明,无监督图聚类方法可用于派生有用的同义词以及紧密相关的上下术语的聚类。这种方法的基本思想是从由TFIDF确定的重要单词的子集中获得一个相似度图,并且如果它们的单词向量相似度之间的角度小于45°(余弦相似度gt; 0.7),则将它们与加权边相连接。但是,为了确定更窄的角度并比较不同的聚类方法,仍然需要找到一种方法来比较导出的聚类的质量。

命名实体识别

命名实体集通常提供对文本内容的简洁访问。知道新闻文章包含命名实体“ Benjamin Netanjahu”,“ Mahmud Abbas”和“ Heiko Maas”,使人们可以快速了解本文的含义。因此,使用文本的命名实体进行索引和增强阅读已有很长的传统。通常,命名的实体会在文本中突出显示或在专用部分中列出,从而使商业杂志或黄色印刷小报的读者可以快速验证是否提及了他或她特别感兴趣的人以及在何处提及。

人名是命名实体,地点、公司和组织名称是其他示例。命名实体可以描述为指我们世界中的一件事。“Elon Musk”是指一个特定的人,名词”桌子”指所有像桌子一样的东西。

鉴于搜索和访问文本信息的重要性,几十年来,命名实体识别一直是计算语言学和数据科学领域的活跃研究领域,这一点不足为奇。 命名实体识别通常包含需要解决的不同子挑战:必须在非结构化文档中检测到命名实体(“此表达式是否为命名实体?”),必须对已识别的表达式进行歧义处理(“这里指哪一个同名的人或地方”),规范化(“该实体的正式名称指的是什么?”,例如“Neustadt a.d. Aisch” 和 “Neustadt an der Aisch”对比),并且理想地联系在一起,即带有指向数据库条目(如公司注册表中的人员条目)或公司首页URL的链接的标记。

重要的是要理解这些步骤对于许多高价值任务都是必需的:想象您的老板要求您检查美国制药公司默克在肿瘤领域的专利组合。在单纯的专利搜索引擎中输入“ Merck AND Oncology”将不仅返回来自达姆施塔特的德国公司默克和独立的美国公司默克的结果,但由于某些默克子公司甚至没有在名称中包含字符串默克(例如Multilan AG或MedAdvisor Inc.),因此也会错过潜在的重要结果。考虑到专利组合可以轻松地由成千上万个复杂文档组成,很明显,除非我们能够使用强大而准确的命名实体识别功能,否则这种看似简单的研究任务很快就会变得极其复杂且耗时。

与许多类似的自然语言处理任务一样,过去,命名实体识别通常以基于词典和基于规则的方法来解决,而近年来,机器学习方法已对这些早期方法进行了补充,并在某些地方替代了。检查命名实体识别结果的顶部条目,我们发现只有深度学习支持的方法占据了报告的顶部位置。尽管这强调了在科学评估中深度学习方法的优势,但已经注意到,许多自然语言处理任务所面临的挑战在科学/学术界和工业用途之间是不同的。作者解释了当前现状的一些原因:基于学习的方法通常超过有足够的实验数据的地方,即使在当今的大数据时代,自然语言处理中的实际项目任务也可能没有在许多工业环境中所需数量的数据。与大多数学术环境相比,在工业界可解释性更是一个问题。行业用户通常需要能够跟踪做出某项决定的原因,而在当今采用深度学习的方法中,这仍然要困难得多。

结果,许多有前途的解决自然语言处理挑战的方法都试图从结合自然语言处理启发的方法和最新的定量方法(例如深度学习)中受益。

流程,模型和本体

流程模型描述了人与机器之间的交互方式以及在何种情况下产生的结果。以一种形式化的方式描述一个流程,使它更易于理解和讨论。通常,流程模型会丰富上下文信息,例如在执行流程时要使用的表单或事务。这突然将模型变成了一种导航方式。利用语义丰富的信息动态丰富流程模型,为理解执行流程实例的上下文奠定了基础。

有时过程模型被视为一种不错的绘图练习或一种图形编程方式。如果将流程模型和本体结合起来,则会出现流程建模的另一个方面:了解流程上下文,从而可以更深入地了解组织的行为。

这是什么意思?流程建模者可以基于受控词汇表来构建模型,而不是使用纯文本来命名其模型元素:组合概念(类)和动词(方法)以创建任务,以及概念和分词或属性(状态)以创建事件。名为“创建发票”的任务可以由分配有方法“创建”的类“发票”组成,该方法基于该类“发票”还导致事件“发票已完成”,该事件也被分配了状态“完成”。概念可以形成一个本体,也可以只是一种词汇,这意味着它们可以是形式本体的一部分,也可以只是元素等非正式列表。

这如何帮助你理解程序内容?如果你具有完成任务的定义概念,则可以将此概念与给定信息系统或文档元数据(例如分配给文档的标签)的相似概念进行匹配。如果不是与给定文档或例如企业资源计划系统中定义的交易的直接匹配,则可以使用语义技术在文档集中或在语义丰富的信息系统中创建用于搜索的参数。在我们的示例中,流程模型将提供示例发票或已准备的最新发票,用户可以将其用作模板。然后,这将允许在执行流程实例的同时收集更多上下文数据,并帮助我们了解为何以这种方式执行该实例(在这种情况下,使用了哪个模板,以及为什么发票是此流程的结果,而不是不同的)。

另一个用例可能是与组织知识图的元素匹配。链接的数据机制可以用于通过例如以下方式适应实际的过程执行。例如,根据知识图中的变化,改变在过程模型中分配给过程任务的表格的字段。过程中将使用的一种形式包含一组包含一个人的地址的关联。此信息在语义上与包含相似的一组关联的知识图的元素进行匹配。如果知识图的元素已更改(例如添加关联“有宠物”),则新关联也可以改进该形式。

总结

如今,人工智能已成为一个热门话题,其实用性无可争议。但是,热门会导致过高的期望。为了提出更现实的期望,我们赞成使用术语“机器智能”。在本文中,我们重点介绍了工业应用用例。我们举了保险业和医药业的例子。当前的人工智能话题主要关注机器学习,尤其是人工神经网络的近期成功。在不争辩机器学习方法的重要性的情况下,我们认为这是不必要的限制。我们看到了符号方法与非符号方法的结合

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238686],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。