开发一种从GIS数据库中挖掘空间关联模式的决策树框架外文翻译资料

 2022-08-08 12:09:47

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


开发一种从GIS数据库中挖掘空间关联模式的决策树框架

摘要

空间数据挖掘与知识发现(SDMKD)是从GIS数据库中发现隐含而有用的知识的过程。从地理第一定律出发,空间关联模式是在地理空间中运作的过程的实现。本文试图提出一个决策树框架来帮助分析空间关联模式。根据问题,首先要确定数据或数据模型的表示。其次,通过空间域特征对地质统计、点阵和点阵数据进行了区分。决策树第三层次的主要任务是将不同的空间数据分析方法应用于不同的空间数据类型。对于格点数据,应用探索性空间数据分析(ESDA)发现空间关联模式,然后通过验证性空间数据分析(CSDA)识别导致观测到的空间关联模式的驱动力。第四层次是验证空间关联模型的精度和准确性。总之,空间关联格局分析是通过循环和重复获取有用空间格局的过程。

  1. 介绍

近40年来,由于计算机科学和技术的巨大进步,地理信息系统(GIS)在空间数据的存储、管理、查询和显示方面得到了长足的发展。例如:数据结构、数据库管理、计算机图形学、多媒体、网络等。但对空间数据的管理和显示的重视严重削弱了GIS的分析能力。以数学运算为主导的空间分析在一定程度上决定了GIS未来的发展方向。随着GIS数据结构和数据库管理技术的成熟,从数据库地理信息系统向分析地理信息系统转变的时代已经到来。随着数字地球战略的实施和国家空间信息基础设施(NSII)的建设,我们可以获得比以往更丰富的数据,但如何从如此庞大的GIS数据库中发现隐含而有用的空间模式?这些都对GIS在未来的发展提出了巨大的挑战。

空间数据挖掘与知识发现(SDMKD)是解决空间数据大爆炸而理论薄弱的一个新兴领域。自GIS知识发现概念提出以来,从GIS数据库中挖掘空间知识一直是GIS和SDMKD领域的研究热点。目前,从空间数据库中挖掘知识的方法主要有统计方法、归纳方法、聚类方法、关联方法、空间分析方法、探索性分析方法、粗糙集方法、云理论方法、图像分析与模式识别方法、决策树方法、神经网络方法、证据理论方法、可视化方法、遗传算法方法和计算几何方法。

地理第一定律说一切事物都与其他事物相关,但近处的事物比远处的事物更相关。事物和现象并不是在地理空间上随机分布的,它们以相似或不同的方式表现出某些空间格局。在空间统计中,相似或不相似事物的空间集中特征称为空间自相关。正是由于空间的邻近而产生的空间关联,导致了现实自然世界的特定模式或秩序。空间数据不可避免地具有一些空间自相关的特征,这是空间数据的特殊性。因此,数据之间独立的假设通常是错误的,因为空间数据往往是高度自相关的。在分析具有空间特征的数据时,忽略空间自相关可能会产生不准确或与数据集不一致的假设或模型。

目前,空间数据挖掘和知识发现是数据挖掘和知识发现的一个新的分支。随着计算机技术的飞速发展,许多挖掘关联、分类、聚类和特征规则的算法都是从传统的数据挖掘中转移过来的。尽管自20世纪50年代以来,空间数据分析的统计理论取得了很大的进展,但其在空间数据挖掘中的应用仍值得关注。本文讨论了从GIS数据库中挖掘空间关联模式的一些基本概念,并在此基础上构建了决策树的框架,以发现隐式而有用的空间关联模式。

  1. 空间关联与空间关联模式

自然资源、野生动物分布和温度的变化通常在一个地区逐渐变化。同类事物在一个空间中聚集的趋势是如此基本,以至于地理学家将这一现象提升到地理学第一定律的地位。我们所观察的是在一个地理空间或空间模式中现象特征的变化和排列。事实上,在计算机发明之前,人们就已经意识到地图对于识别有用的空间模式的重要性。一个著名的例子是斯诺在1855年绘制的一张地图,地图上致命的亚洲霍乱病例围绕在伦敦的公共宽街水泵周围,这张地图显示了一个星云状的受害者聚集在水泵周围。通过绘制并检查这张地图,斯诺证实了他的预感,即霍乱是通过受感染的水源传播的。水泵一关闭,霍乱流行病就停止了。

每件事都与其他事相关。跨地理空间的事物之间的关系是空间关联,是形成自然界特定空间格局的主要原因。我们把由于空间接近和空间相互作用而产生的空间模式称为空间关联模式。在本质上,这两个词没有区别,但我们强调联想在某些模式形成过程中的重要性。通过空间关联模式的演化,可以推测空间关联的过程和机制。地理信息系统的持续成功和扩展,在某种程度上是对空间格局的重要性的认识。

  1. 一种决策树框架

从狭义上讲,从GIS数据库中挖掘空间关联模式的过程应该从数据库本身开始。但事实上,我们对真实地理世界的理解,必然会影响到现实的抽象和后续的发现过程。因此,开发决策模型的第一个层次是根据手头问题的类型选择数据的表示形式或数据模型。第二层次是空间关联模式的探索。通过这一阶段,我们可以从目标数据中发现一些特定的空间格局。第三层次是空间关联模式的确认;因为第2级的探索过程是初步的,所以应该对模式进行测试和解释。第四层次评价了上述结果的精度和不确定度,并提出了进一步研究的建议。图1显示了决策树的四个基本层次。

一级 数据表示的类型

二级 空间关联模式探索

三级 空间关联模式的确认

四级 空间关联模式评价

图1所示。从GIS数据库中挖掘空间关联模式的四层框架

3.1数据表示的类型

Cressie概述了空间统计分析的分类,区分了点模式分析、地质统计模型和所谓的格子或区域模型。在点模式分析方面,主要关注空间关联模式的定位探索、数据类型表征、空间关联模式的确认、空间关联模式的评价、3级4级2级1级观察、提示聚类或其他非随机模式。地质统计方法和格点方法的根本区别可以与计算机数据库和地理信息科学文献中数据模型的概念有关。在处理真实的地理世界时,有两种基本的数据模型,包括对象和字段,它们代表了两种不同的方法,以计算机分析的形式抽象现实。对象是离散的实体,通常在GIS中表示为点、线和多边形(在所谓的矢量GIS中)。在社会和经济分析中,这些对象对应于经济代理人或司法管辖区,在空间上具有离散的位置,如地址、人口普查区和县。相反,“场”是指连续的空间分布,用表面表示(即所谓的栅格GIS)。有时,使用对象或字段是否更合适并不是很明显。因为空间数据模型与空间过程的随机模型没有一一对应的关系。例如,土地价值可以作为离散空间对象(地块)的特征进行研究,也可以作为连续土地价值面的样本进行研究。选择数据模型用于空间关联模式分析的意义是深远的。一般而言,对象视图和关联的格点数据视角似乎更适合研究离散经济主体,而现场视图和关联的地质统计视角则更合适。

3.2空间关联模式探索

空间数据挖掘和知识发现是一个从具体现实中抽象出来的过程,是一个从个性中获取共性的过程。一种可行的获取知识的方法是归纳,归纳是从特定的事实或事例中得出普遍原则的过程。探索性空间数据分析(ESDA)是一套用于描述和可视化空间分布、识别局部性或空间异常点、发现空间关联模式、集群或热点、揭示空间格局或其他形式的空间异质性的技术。为了限制我们的讨论,我们将集中讨论格子数据的分析。总体而言,全球空间自相关和局部空间自相关从两个不同的角度来分析人类感兴趣的空间关联模式。全局空间自相关的度量通常基于Moran s I统计量,这个统计数字用下面的矩阵形式表示:

其中X是n个观测值偏离均值的向量。W是空间权重矩阵:wii对角线上元素设置为0,而维琪的元素显示该地区我空间连接到该地区j。一个比例因子等于S0的所有元素的和W .为了规范化影响每个地区外,空间权重矩阵row-standardized这样维琪在每一行的元素之和为1。

Moran s I统计量是一种全球性统计量,不允许评价区域空间自相关结构。为了回答是否有当地的空间集群值,高或低的地区提供更多的全球空间自相关和空间自相关的全球评估面具在多大程度上非典型本地化或一级对象字段没有对位置模式对地质统计学数据点阵数据点模式数据的本地非平稳,几个当地的空间自相关统计数据,Gi (d)统计数据。空间关联LISA和Moran散点的局部指标。

Getis和Ord建议使用Gi(d)统计来检测使用全局统计时可能不会显示的局部依赖区域。这个统计数据对于每个地区我可以这样写:

其中wij(d)是一个对称二元空间权重矩阵的元素,对于给定区域i距离d内的所有连杆均为1,对于其他所有连杆均为0,包括区域i到自身的连杆。一旦标准化,Gi(d)的正值表示高值的空间聚集,而负值表示低值在区域i周围聚集。

Anselin将空间关联的局部指标(LISA)定义为满足两个标准的任何统计数据:首先,每次观测的LISA都给出了在该观测周围相似值的显著空间聚类的指示;其次,所有观测值的总和与空间关联的全局指标成比例。各地区Moran s I统计量的本地版本为:

其中xi是区域i的观测值,是区域间观测值的均值,对j的求和只包含j的邻近值。Ii为正值表示相似值(高或低)的空间聚类,而负值表示区域与其相邻区域的不同值的空间聚类。

从本质上讲,探索空间关联模式是一个让数据自己说话的过程,它遵循了Tukey在探索性数据分析(EDA)上的开创性思想。空间模式应在以下步骤中解释。

3.3空间关联模式的确认

在从GIS数据库中挖掘空间关联模式的第二层决策树中,需要通过模型选择、估计和检验来确定模式。模型选择属于模型规范搜索的范围。在选择合适的模型时,最常用的方法是经典方法。这在《安塞林与雷伊》中有明确的描述。它可以简单地描述如下。假设考虑以下线性模型来充分表示数据生成过程:

其中y是一个(N 1)随机变量,X是一个(N k)非随机变量矩阵,ε是一个(N 1)误差向量,为NID(0, sigma;2)。随后,研究是否存在实质性的空间依赖(即,由于遗漏空间滞后而产生的自回归残差模式)或有害类型的空间依赖(即,自回归误差结构)。如果真实的数据生成过程是空间滞后模型,那么这些类型的错误说明很可能出现在错误说明测试中:

或空间AR误差模型,由:

式中,W为表示空间形态的外因确定元素的行标准化矩阵(N N), rho;和lambda;为标量自回归参数。

用于识别空间自回归误差项或错误遗漏空间滞后的诊断工具是众所周知的拉格朗日乘子(LM)检验:

规范的经典方法可以总结如下:

  1. 用OLS估计初始模型y=Xbeta; ε。
  2. 分别使用LMrho;和LMlambda;检验由于遗漏的空间滞后或由于空间自回归误差而没有空间依赖的假设。
  3. 如果两个测试都不显著,则使用第1步的初始估计作为最终规范。否则请执行步骤4。
  4. 如果两个测试都是重要的,则两个测试中较重要的一个指向的规范。例如,如果LMrho; gt;LMlambda;,则方程(5)是合适的模型。如果LMrho;lt;LMlambda;,则方程(6)是合适的模型。否则,执行步骤5
  5. 如果LMrho;很重要,但是LMlambda;不重要,则公式(5)是合适的模型规范。否则请执行步骤6。
  6. 公式(6)是适当的模型规范。

在模型估计方面,经典线性回归模型y=Xbeta; ε可以通过OLS进行估计。但对于空间滞后模型或空间误差模型,OLS估计存在偏差、不一致或无效。最大似然(ML)估计由Ord概括,并在空间计量经济学框架下进行扩展。出发点是对误差项的正态性假设。联合似然是由y的多元正态分布得出的。与经典回归模型不同,空间回归的联合对数似然不等于与单个观察相关的对数似然的和。这是由于空间依赖的双向性质,这导致了一个雅可比项,它是一个完整的N N矩阵的行列式,形式为|I-rho;W|或|I-lambda;W|。对于空间滞后模型,对数似然的形式如下:

对(10)的对数似然对参数向量求偏导数,得到参数的估计如下:

对于空间误差模型,基于多元正态变量的似然度为:

对(13)的对数似然对参数向量求偏导数,得到参数的估计如下:

3.4空间关联模式评价

R2是评估估计模型拟合优度的标准度量,但由于空间效应[1]的存在,对空间模型不适用。赤池信息准则(AIC)是一种基于信息论的模型拟合优度评估的有效方法。其一般形式可正式表示为:

其中L为最大对数似然,K为模型的未知参数个数,q为校正因子。校正因子因信息测量的不同版本而不同。一个简单的乘因子q=2K是常用的。一般的想法是,AIC修正或惩罚由一个反映参数数量的因子给出的最大似然拟合优度的评估。而AIC依赖于似然函数的正确选择和极大似然估计的结果。因此,在分配假设更多是出于方便而不是基于坚实的理论考虑的情况下,它可能不是非常可靠。

交叉验证是一种简单的非参数方法,通过比较它们对未用于模型估计的数据的预测能力来评估一组竞争模型的有效性,它基于重采样技术,由Stone和Geisser建议。但从严格意义上讲,上述拟合指标并不完全具有可比性,因为它们基于不同的参照系。因此,在实际应用中,我们应该多计算一个模型效度指标,以获得更多有用的见解。

  1. 结论

地理信息科学存在于一个数据和计算日益丰富的环境中。目前,许多从GIS数据库中挖掘空间知识的算法都起源于经典的数据挖掘和知识发现领域。本文提出了一个决策树框架,从GIS数据库中发现隐式但有用的空间关联模式。人们对真实地理世界的理解方式,将最终影响后续空间数据存储和分析的方法。通过识别特定的问题和数据模型,我们可以对不同的空间数据类型应用不同的方法。对于网格数据或区域数据,ESDA可以实现全局或局部空间关联模式,CSDA可以对其驱动机制进行建模。一般来说,从GIS数据库中挖掘空间关联模式是一个迭代的知识发现过程。

感谢

本研究得到国家自然科学基金40601074资助。特别感谢鲍书明博士在空间统计知识方面的帮助。lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[257740],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。