英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
快速发展领域的知识图谱:一种设计学方法
关键词:知识图谱;设计学;信息系统
摘要
知识图谱可以对快速发展的科学领域提供综合性的描述。使用设计学的方法,我们开发了一个基于 Web 的知识图谱系统(也就是 Nano Mapper),提供纳米技术领域各种科学文献源的交互式搜索和分析。为了评估 Nano Mapper 搜索和分析的功能,我们分别对其进行了多种研究。搜索功能看起来比基准系统更有效。在分析功能下受试学科表现出良好的满意度。我们的研究解决了纳米技术方面知识图谱的几个缺口并且阐明了使用设计学的方法去设计、实现以及评估一个先进的信息系统的有利之处。
1. 简介
知识图谱在快速发展的学科领域变得越来越有价值。通常,知识图谱是对集体领域知识进行整体的描述以及利用可视化手段去呈现搜索和分析结果 [23]。知识图谱“拥抱”能够被实施于支持个人搜索和分析积累的知识的方法、模型、算法以及技术,从而揭示出焦点话题、重要的子领域、原理性知识的创造者或者发展趋势。地理信息的可视化展示或者面向时间的知识图谱可以帮助描述一个领域随时间演进的过程并且使得研究者和从业者能够访问和仔细查阅快速扩张的知识 [9]。知识图谱在快速发展的学科或者新知识加速产生的工程领域尤为重要。在这样的领域,开发和利用先进的基于 Web 的系统很重要,用来支持令人满意的开发、分析,学习经过筛选的巨量信息以及提供所有知识的一个整体的、综合的描述 [66]。
一个知识快速发展领域的例子就是纳米技术领域。纳米技术领域在二十世纪的后十年出现,随之发展的是原子级别上新的可用的成像、操纵和模拟问题技术;它包含范围广泛的为了探究纳米级别的物质的属性而开发材料、设备和系统的科学和工程活动 [1]。纳米技术的快速发展对多个领域都有好处,包括生物医药、能源、电气、制造业、环境修复 [1]。作为一个快速成长,快速演变的科学领域,纳米技术的研究正在全世界各国的学术界、政府和合作机构进行着。在过去的30年中,产生了大量关于纳米技术研究的科学文献 [42]。例如,过去五年主要的专利局发布的纳米技术相关的专利文献数量是自上世纪70年代早期纳米技术兴起到五年前发布的专利的三倍 [15]。除此之外,用于纳米技术相关研究的联邦资金从2001(4.6亿美元)年到2009年(15.3亿美元)增长了三倍 [1]。对于科学家、研究者、工程师和商业投资者来说,了解所有的知识内容并且跟进前沿研究、新发展、前沿扩张实验、杀手级应用的开发和重要的发展趋势是至关重要的。知识图谱可以在所有的纳米技术发展和现状中作细致的分析和综合性的理解。知识图谱的核心就是对报导了主要发展、进步和突破性进展的文本文档进行全面的分析。根据 Li et al. 的说法 [42],知识图谱需要分析重要的专利、基金项目、技术报告以及学术研究。通过分析这些文献和探究它们的关系(比如,合作研究者,合作投资人,焦点话题,方法和技术),我们可以获得一个领域内所有知识发展状况的综合性理解。
不管它的临界性以及和信息系统(IS)研究的关联度,知识图谱只得到了有限的关注。特别是在能够提供综合性搜索支持、精细的分析能力和有效的可视化的先进的知识图谱系统的开发和评估上,研究者只投入了很少的努力。少数系统提供基础的知识图谱并且经常聚焦面很窄,因为只针对一个特定的文档语料库或者用户查询。通过 Hevner et al. 的设计学方法的指导 [27],我们开发了 Nano Mapper,一个基于 Web 的知识图谱系统,能够为研究者和从业者提供纳米技术领域知识的一个综合性描述。我们所选的设计学方法是适宜的,因为它提供了一个强健的框架,来分析和细述纳米技术领域关键性的知识图谱需求、证明系统设计的正当性、在系统开发和评估上联系理论和实践,并且通过具有必要的精准度和有效性的 构建-评估 循环来补充重要的指南 [28]。Nano Mapper 包含重要的专利和主要的基金项目文献;支持广泛阵列搜索,内建精细的分析功能,并且能够简单全面地呈现出搜索和分析结果。为了评估 Nano Mapper 的搜索和分析功能,我们分别对其进行了多种实证研究。我们的评估研究使用的量度方式是之前经过验证的量度方式,同时可能的话,也包含流行的基准系统。大体上,我们的结果鼓励和表明,同基准系统相比,在 Nano Mapper 下受试学科能够更有效也更高效地完成知识图谱搜索任务。而且在 Nano Mapper 的分析功能下,受试学科也表现出良好的满意度。
余下的论文结构如下。首先我们对知识图谱做了总述,回顾了知识图谱研究基础的几个方面,并且指出了几个激发我们研究的关键挑战。接着我们描述了设计学方法并且讨论了它在指导我们系统开发和评估中的优势和愿景。然后,细述了我们的系统框架,文献来源以及系统功能。接着我们描述了评估和突出的重点结果,紧接着是一个对于我们研究和实践的贡献,研究的局限,以及对于未来工作的建议的讨论。
2. 知识图谱,支持性研究以及挑战
2.1 知识图谱概述
知识图谱是一个新兴的信息科学的子领域,吸引了来自研究者和从业者越来越多的注意力。它通过把某一具体学科领域累积的而且迥然不同的知识综合成整体且连贯的模型和描述来揭示出该领域的知识结构 [60,64]。知识图谱描述了一个领域所有的发展状况和共同性的知识,使得个人能够理解该领域的关键话题、主题、趋势、研究者以及他们的合作网络 [4,56]。可视化对于知识图谱是至关重要的。可视化以简单易懂的图提供给用户目标领域的知识,用作他们学习、探究、搜索或者分析全部的知识空间 [20]。知识图谱在快速发展的科学或工程领域尤为重要。在这些领域中,对研究者、从业者和商业投资人来说,去识别主要的研究者或机构,理解他们的合作网络,并且熟悉关键话题和发展趋势是十分重要的。知识图谱需要全面彻底地分析重要的明确的事实,包括专利文献和研究项目报告。知识图谱揭示的主要研究者、机构以及他们的关联(比如,联合专利所有权、合作项目以及共同创作),还有他们各自的焦点话题和主要项目是十分关键的 [7]。
文献代表一个重要的知识库。有三种重要的文献类型作为有价值的知识源:专利文献、基金研究文献以及学术研究文章。专利文献因为记录了能产出大量商业化机会的重要研究和发展成果(Ramp;D)所以很重要 [29,30,44],也因此可以用来评估一个领域的整体发展状况 [45]。主要的专利局有美国专利商标局(USPTO, http://www.uspto.gov/),欧洲专利局(EPO, http://www.epo.org/index.html)以及日本专利局(JPO, http://www.jpo.go.jp/)。基金研究文献因为记录了主要的科研活动和发现所以也很重要 [31,52]。(美国)国家科学基金会(NSF, http://www.nsf.gov/)是尤其重要的因为它可能是非直接相关卫生保健领域的最具影响力的科学技术基金资助机构。在2005到2007年间,大约6%的 NSF 奖授予给了纳米技术相关的研究和发展 [52]。学术研究文章记录的科学研究涉及新颖的方式方法、仪器或实验,同时也有关键的发现 [39,55]。某个领域已发表研究文献数目的增加程度反映了这段时间内该领域的整体发展状况 [4]。
2.2. 回顾实现知识图谱的研究方向
知识图谱有几个重要的研究方向:文本挖掘、网络分析以及信息可视化 [4]。文本挖掘是从一个文本集合中抽象出重要的关联或模式并且评估和解释这些模式 [8]。文本挖掘是知识图谱的基础;它揭示了标题、文摘或文档正文中内含的重要主题或话题。自然语言处理(NLP)和内容分析代表了文本挖掘的一般方法。例如,自动索引 [54] 和信息抽取 [56] 就属于自然语言处理方法。自动索引是一种名词短语性的自然语言处理方法,使用关键词或术语向量来代表文本内容。突出的名词短语性工具有 MIT 的 Chopper,Nptool [62] 和 Arizona Noun Phraser [61]。信息抽取能够有效且高效地从结构化文本中抽取出重要的感兴趣的实体,比如,人名或者地点 [56]。内容分析在作者、机构、话题区域、国家或地区的基础上将文档分类,并且通过分析它们来识别出重要的主题、模式或趋势 [4]。流行的技术包括聚类分析、自组织映射(SOM)、多维标度测量(MDS)、主成分分析(PCA)、共词分析还有路径探测网络(PFNET)。基于聚类的技术将相似的文档或话题分类为层级结构。SOM [36,37] 由一个非监督式,两层神经网络组成,可以被用作聚类或者降维。Chen et al. [11] 开发了一个多层 SOM,基于它们各自的内容来对超过110000个网页进行分类。Kohonen et al. [38] 把六百八十万个专利映射到了一个 SOM 中。MDS 和 PCA,两个经典的降维技术,使用一个低维笛卡尔系坐标空间去估计对应的高维向量。共词分析可以通过生成任意两个术语的共现概率矩阵来描述一个概念的网络。路径探测是项目对之间距离的输入预估,同时通过只保留重要连接的方式来选作网络的表示。
网络分析对知识图谱也很重要,因为它可以被用作分割科学家和研究者小团体,确定网络中的关键人物,揭示他们的交互模式(例如,协作),还有描述整体的网络组织或结构 [4]。已经开发了几个重要的量度来描述每个个体节点在网络中的角色;比如,度数、中间性,还有紧密度 [63]。节点的度数描述了该节点拥有的直接连接数。中间性描述了测地线的数值,也就是穿过节点的任意两个节点间的最短路径。节点的紧密度表示了该节点间的所有测地线数目以及网络中的其他每个节点。之前的研究测试了大型真实网络的拓扑结构和演变 [46]。例如,Newman [46] 报告称在 MEDLINE 集合(有150万个节点)中合著者之间的平均最短路径长度大约为4.6,并且建议大型网络节点间的路径距离应该短一些。MEDLINE 合著关系网络分析的系数为0.066,比随机关联高出好几个数量级,意为着相比较于小的随机图,真实世界中的大型网络会有相对较高的聚类系数。
知识图谱需要以一个直观易懂的方式,通过高效的信息可视化手段来呈现映射结果 [4]。Shneiderman [57] 对现有的信息呈现方式进行了一个综合的回顾,并且将它们分为一维(1D)、二维(2D)、三维(3D)、多维、基于树的、基于网络的或者时间性的。大多数的一维方式使用一维的可视化对象来表现抽象信息,并且在屏幕上以线形或圆形的方式来呈现出来 [21,25]。在二维表示下,信息以二维的可视化对象来呈现 。许多基于 SOM 的系统使用二维的方式来呈现分析结果 [比如,11,37,38]。三维表示是以三维的可视化对象来呈现信息,一般的隐喻有房间 [6],书架 [6],或者建筑物 [2]。多维表示使用三维或一个二维空间,经常会通过降维将文档聚类或主题投射到空间中,例如,VxInsight 系统 [5]。基于树的表示也被用作呈现对象间的层级关系,比如,树形图 [35],锥形树 [51],还有双曲树 [41]。基于网络的表示是应用在简单的基于树的结构已经不能充分描述该复杂关系的时候。基于网络的表示使得用户可以可视化已出版文章间的引用关系 [10] 或者去理解互联网上有内部关联的网页间的连接关系 [2]。时间性的可视化可以根据时间序列去组织信息。地点和动画可以作为可视化变量而被编入来增强呈现的实效,生动地展示信息的时间层面。
2.3 纳米技术知识图谱中的重要挑战
作为快速发展科学领域的一个例子,纳米技术近几年经历了快速发展并且产生了许多研究方向 [32]。纳米技术在很多领域都具有广泛影响和重大冲击,相关领域有知识生成、工业和生物医药应用、还有可持续发展环境,并且经验证也是一个国家科研实力的重要指标 [52,53]。超过60个国家施行了国家项目或计划,比如美国国家纳米技术倡议(NNI, http://www.nano.gov),为促进纳米技术的研究 [52,53]。纳米技术在研究范围和专业化粒度上都有很大的扩展,因此对于研究者和从业者来说跟上这种知识爆炸越来越困难,而这些人通常依靠文献查找来监控某一具体子领域的发展状况或者理解当前形势下的新方法或潜在应用 [32]。文献报导了主要的突破、进步或者研究项目的发展,而且在数量和话题多样性上面都是占绝对优势的 [4,7]。这些文献建立了一个核心知识库,因为它们详细记录了重要的科学研究或者发展成就,并且报导了关键实验或分析结果。
在纳米技术领域,提供一个交互式的搜索和分析支持已经被认为是该领域知识图谱面临的主要挑战 [12]。尽管先进的分析技术已经被用于评估研究和发展状况,但是只有少数被用于开发基于 Web 的能够支持交互式搜索和分析的系统。例如,Meyer [44] 使用美国专利商标局发布的专利以及来自科学文献索引的科研文献去测试学术和工业研究之间的相互关系。Hullmann [32] 通过使用文献计量学的方法对1980年到1990年间的专利和论文进行分析来调查纳米技术领域整体的研究和发展情况。Huang et al. [29,30] 通过开发由文献计量分析、内容分析和引文分析组成的专利分析框架扩展了之前的研究,用来评估纳米技术在国家
全文共6222字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[144671],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。