一种基于统一概念模型的数据集成框架外文翻译资料

 2022-08-13 16:18:52

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


一种基于统一概念模型的数据集成框架

摘要:

如今,数据正以前所未有的规模被生成、收集和分析,数据集成是将来自异构、自治数据源的数据组合起来,为用户提供集成数据的统一视图。为了设计一个数据集成框架,我们需要解决各种挑战,如模式映射、数据清洗、记录链接和数据融合。本文首先简要介绍了传统的数据集成方法,在此基础上,提出了一种基于统一概念模型(UCM)和图数据的集成框架,以解决实际加油数据集成问题。在这个框架中,会执行模式映射,将不同来源的元数据集成在一个统一概念模型中。统一概念模型具有易演化的优点。该模型对于有效的模式映射和数据转换也很重要。通过遵循统一概念模型的结构,利用语义相似度计算指标,将来自不同数据源的数据自动转换为实例数据并进行关联,最后将数据存储到图数据库中。本文基于不同种类的数据进行了实验,这些数据来自加油记录、匿名评论者的社会网络和车辆轨迹。实验结果和参考实现实例表明,该框架具有良好的查全率和查准率。

关键字:数据集成,模式映射,图模型,语义相似度计算

  1. 引言

2009年7月5日,新疆维吾尔自治区首府乌鲁木齐市发生“7·5”暴力骚乱,造成重大人员生命财产损失,这强调了我们需要提高预防、防范和应对此类人为暴力袭击的能力。恐怖分子若能轻易地获取汽油、天然气等易燃材料,这将会对社会造成巨大的潜在危险,因此对这些异质易燃材料的使用信息进行安全监管尤为重要。

传统的汽油和天然气安全监管通常涉及多个组织收集的个人加油车辆数据,这些数据以不同的格式保存,并存储在分散的数据库中。为了防止暴力袭击,这些可疑信息需要尽可能多的被收集和分析。除了上述传统的数据源,匿名评论,一种可疑的网络行为也需要被考虑在内,因为它可以在网络空间产生不正常的,破坏性的,甚至是非法的行为,这可能会误导公众的认知,给互联网用户和社会带来不好的影响。大范围行为信息的整合有利于从大量的正常行为信息中发现稀疏的可疑行为。基于这一考虑,本文还采用了匿名评论者和车辆轨迹的社交网络来更好地监督和预测。

不幸的是,监管者很难将潜在的危险信息与大量分散的数据区分开来。因此使用统一的视图来展现异构数据具有迫切的需求。针对这一问题,本文提出了一种基于同一概念模型的数据集成框架。为了达到全面和高效的目的,这个框架需要解决几个问题。首先,该统一概念模型需要实现模式自动映射、关系发现和数据互联。其次,必须将异构且分散的数据以标准化的格式表示,以便准确、及时地进行数据访问、转换和链接。第三,框架中的如相似度计算、记录链接、数据融合等核心技术是数据有效验证、分析和可视化的关键。

集成来自不同数据源的数据是一个关于组合存储在不同数据源中,并向用户提供这些数据的统一视图的基本问题[1]-[4]。设计数据集成框架基本上有两种方法。在以全局为中心的方法中,将全局模式的元素定义为对源的视图,而在以本地为中心的方法中,将源定义为对全局模式的视图[5]。尽管在数据集成领域有很多文献,但是上面阐述的具体问题还没有得到彻底的研究。设计一个现实可用的数据集成框架是一项非常复杂的工作,需要解决多个不同的问题。这里,我们集中讨论三个基本问题:

  1. 指定统一概念模型和来自不同数据源的模式之间的映射。
  2. 在从异构数据源收集的数据之间进行准确的数据转换和链接。
  3. 对基于统一概念模型的集成数据执行查询。

本文的目标是开发一个数据集成框架,致力于为这些问题提供解决方案。基于以上背景,本文提出了一种新的基于图的数据集成框架来解决实际的汽油和天然气安全监管问题。该框架由三个主要组件组成:统一概念模型(UCM)组件、图实例数据转换组件和图数据分析与可视化组件。我们的方法与其他人的工作有以下几点不同。首先,我们使用属性图作为结构,构造统一概念模型(UCM)作为全局映射模式。其次,将异构数据转换成基于统一概念模型的标准化格式并存储在图数据库中,方便使用图形查询语言进行查询和分析。最后,利用基于多特征的度量方法计算了记录链接和数据融合阶段候选实体之间的语义相似度。

本文的结构如下。我们将在第二节中回顾数据集成方法的现状。第三节概述了本文拟提出的集成框架。而后,我们在第四节描述了统一概念模型,在第五节中描述了记录链接和数据融合的方法。在第六节中,我们讨论了基于真实加油数据集的实验和参考实现演示。通过查询集成的维基百科图形数据,并与工业数据集成软件进行比较,验证了该框架的通用性。最后,在第七部分对全文进行总结。

  1. 相关工作

我们的工作主要与数据集成任务相关,比如模式映射、记录链接和数据融合。

  1. 模式映射

在模式翻译与集成、知识表示、机器学习和信息检索领域,已有大量关于模式映射的研究工作[6]-[8]。其基本思想是在开始时对可用的数据源提供最有效的服务,比如简单的关键字搜索,然后逐步发展为模式映射,并随着时间的推移改进搜索的质量[9]、[10]

Miller等人[11]提出了一种基于值对应的交互式映射创建范式,展示了如何从源属性的一组值创建目标属性的值。Marnette等人[12]演示了一个系统,模式映射和数据交换技术可以非常有效地应用于如数据融合、数据清洗、数据抽取、转换和加载领域。Cheng等人[13]提出了一个半自动框架,利用语言和文本挖掘技术,促进实现BIM(建筑信息建模)模式和GIS(地理信息系统)模式之间的模式映射。

  1. 记录链接

记录链接是指标识跨不同数据源引用同一逻辑实体的记录的任务,尤其是当它们可能跨数据源共享一个公共标识符时更是如此[14]–[17]

McNeill等人[18]提出了一种新的动态分块算法,该算法在执行时以数据驱动的方式自动选择分块属性,有效地确定数据集中哪些记录对应该作为潜在的重复项进行检查,而不必在块之间创建相同的记录对。Kannan等人[19]设计了一个框架来解决将非结构化产品描述与结构化产品描述相匹配的难题。Pei Li等人[20]应用时间衰减来捕获消失的时间对实体值演化的影响,并提出通过记录时间顺序来做出全局决策的聚类方法。Hassanzadeh等人[21]提出了Stringer系统,并用该系统来评估从几个无约束聚类算法结合可扩展的近似连接技术获得的聚类(潜在重复组)的质量。

  1. 数据融合

数据融合的目的是解决来自不同来源数据的冲突,找到反映现实世界的真相。与模式映射和记录链接不同,数据融合是近年来出现的一个新领域,其动机是反映数据的准确性。

Zhao和Han[22]提出了一种新的专为处理数值数据而设计的求真方法。该方法基于贝叶斯概念模型,能够利用数值数据的特性。Li等人[23]提出了应用于股票和飞行数据集的,旨在解决冲突和发现真相的最新数据融合方法,分析了该方法的优点和局限性,并提出了有前景的研究方向。Pasternack和Roth[24]引入了一个新的、通用的事实认定框架,该框架能够将附加信息合并到事实认定过程中。

然而,大多数研究工作和数据集成框架都有其局限性。传统信息系统的架构具有数据是来自分布式、异构、自主管理的数据源的特点。模式和实体定义之间的差异、数据表示形式的差异决定了不能根据传统的方法完美地解决数据集成问题。

在我们的工作中,我们从一个新的角度来解决数据集成问题,即遵循统一的概念模型,对数据进行清理、链接、集成并存储在图形数据库中,而后对其进行查询和分析。

  1. 框架概述

在本节中,我们将概述用于自动数据集成的基于图的框架,该框架由三个主要组件组成:统一概念模型、图实例数据自动转换和图数据分析与可视化,如图1所示。

图1 基于图的自动数据集成框架概述

  1. 统一概念模型

对于如关系数据库或Wikipedia dump文件的数据源,我们首先提取它们的实体和关系的模式,并将它们转换为统一概念模型,统一概念模型将根据它们之间的概念和关系(活动)生成一个全局组合模式。在统一概念模型中,概念被表示为节点,关系被表示为边。在我们的定义中,活动是一种特殊的关系,它表示一种生成非常快的关系,比如交易数据。为了避免超级节点问题,活动被存储在NoSQL数据库中,如Hbase或MongoDB。

  1. 图实例数据自动转换

根据统一概念模型的结构和定义,可以将异构数据源中存储的原始数据自动转换为图实例数据。在图数据中,每个数据对象由一个节点表示,关系由边表示。节点和边都具有强制的元数据属性和任意的实例属性。每个节点必须有一个源标识符,以便能够追溯到其原始源。这是一个由数据清洗、记录连接、数据融合组成的数据处理流水线。

  1. 图数据分析与可视化

集成的实例图数据可以作为全面、灵活的数据分析的基础。该框架的实现是我们正在进行的基于图的数据分析和可视化研究的基础,包括网页排名、社区挖掘、图形模式匹配和时空分析。目前,我们基于框架开发的参考实现已经提供了浏览和查询图形等功能。用户可以通过图进行可视化导航,以访问任何具有关系的数据块。我们选择neo4j作为我们的图数据库,除了neo4j提供的可视化功能之外,我们还定制了一些其他的可视化组件。

  1. 统一概念模型

由于模式是独立开发的,所以它们通常具有不同的结构和术语。当模式来自不同的领域时,显然会出现这种情况。然而,即使它们代表了相同的现实领域,也会发生这种情况,因为它们是由不同的人在不同的现实环境中开发的。因此,模式映射和集成是数据集成的第一步。

  1. 统一概念模型架构

在这一节中,我们提出了一个统一的概念模型(UCM)。来自不同数据源的元数据被转换成统一的内部图结构表示,其中节点表示概念,边表示关系(活动)。由于不必处理模式的大量异构表示,这种统一的表示大大降低了模式映射的复杂性。图2展示了统一概念模型的高层架构。

图2 统一概念模型的高级架构

  1. 混合模式映射方法

为了生成统一概念模型,本文提出了一种同时考虑模式级信息和实例数据的混合模式映射方法。这种方法不仅可以处理模式的结构,而且可以洞察模式元素的内容和含义。具体来说,模式级相似度计算考虑实体名、列名和描述信息,实例级相似度计算考虑实例数据的模式和语义信息。

实体名和列名之间的相似度计算采用编辑距离[25]。它是一种关于字符串的度量,用于衡量两个字符串序列之间的差异。设a和b是两个字符串,i和j表示a和b的长度,则编辑距离如下所示。

编辑距离的结果是两个序列差值的绝对值,需要归一化为(2)。

接着采用一种叫做归一化Google距离[26]的信息检索相似度方法,计算实体描述与列描述之间的相似度。设和分别代表两个搜索输入,和分别代表和的搜索结果数量,代表同时包含和的网页数量,具体公式如下所示。

设和表示两个需要比较的实体,我们使用和表示实体名和列名之间的相似性,用和表示实体描述和列描述之间的相似性,用表示模式级别的相似性。

是权重系数,且。通过实验可以确定,。

有时有用的模式级信息是有限的,因此实例级的信息对于模式映射非常有用。对于文本元素,统一概念模型采用基于语言特征的信息检索技术。首先提取基于词的相对频率和词的组合的关键词和主题,然后利用(3)式计算实例级相似度。对于更结构化的数据,如数字元素,我们通过计算数值范围和平均值或是字符模式实现,这个计算方式允许我们能够识别电话号码、邮政编码、日期条目等。对于一个名为“Gender”的列,在数据库a中,“Gender”列的值是“male”和“female”,而在另一个数据库B中,它可能被存储为“0”和“1”。 在这种情况下,便可将“Gender”列的值数作为一个特征进行进一步的相似度计算。

实例级的相似性表示为,两个实体间的完整相似度通过式(5)计算。

给表示和的总相似度,是权重系数和,。和的值是动态的:当时,;当时,。权重的设置是基于一种直觉,即当模式级相似度计算结果较差时,模式映射结果应在很大程度上依赖于实例级相似度计算的结果。

在我们的研究中,模式映射是由机器自动完成的,而统一概念模型架构的设计则是在领域专家的帮助下完成的。这是因为首先必须要有一些概念和关系存储在统一概念模型中,然后才能将进入统一概念模型的模式映射到一些目标概念和关系。

  1. 实例数据转换

实例数据转换是由数据清洗、记录链接和数据融合组成的一系列操作,该过程是基于统一概念模型完全自动实现的。根据统一概念模型的结构,需要将来自不同数据源的数据自动转换为实例数据,并使用语义相似度计算度量进行关联。图3展示了统一概念模型如何在实例数据转换中扮演桥梁这一角色。

图3 实例数据自动转换概述

  1. 数据清洗

数据清洗在数据处理和数据分析中起着重要的作用。在我们的工作中,我们采用了基于规则的方法来进行数据清理工作。首先,通过统一概念模型将异构数据源的原始数据转化为实例数据;然后检查存储在概念和关系(活动)定义中的规则,如果触发规则,则执行该规则以生成标准的数据。在我们的规则库中,规则是可配置和可重用的,如果通过分析日志发现任何规则存在异常,可以将其立即删除或

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235840],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。