空间数据挖掘与地理知识发现——简介外文翻译资料

 2022-12-18 15:48:32

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


空间数据挖掘与地理知识发现——简介

Jeremy Mennis b,1, Diansheng Guo a,*

aDepartment of Geography, University of South Carolina, 709 Bull Street, Room 127, Columbia, SC 29208, United States

bDepartment of Geography and Urban Studies, Temple University, 1115 W. Berks Street, 309 Gladfelter Hall, Philadelphia, PA 19122, United States

关键词:空间数据挖掘、地理知识发现

摘要:利用现代数据采集技术,如全球定位系统(GPS)、高分辨率遥感、位置感知服务和调查以及基于互联网的自发地理信息数据采集系统,已经并将继续收集大量的地理数据。 目前迫切需要有效的方法从空间数据集中提取前所未有的大规模、高维度和复杂性的未知和意外信息。 为了应对这些挑战,空间数据挖掘和地理知识发现已成为一个活跃的研究领域,侧重于从海量和复杂的空间数据库中提取有用信息和知识的理论、方法和实践的发展。

本文着重介绍了空间数据挖掘和知识发现的最新理论和应用研究。 我们首先简要回顾了几个常见的空间数据挖掘任务的文献,包括空间分类和预测、空间关联规则挖掘、空间数据聚类和地理可视化。 这期专刊中的文章通过开发点模式分析、时空数据预测和运动目标数据分析的新技术,以及演示遗传算法在图像分类和空间插值方面的优化应用,为空间数据挖掘研究做出了贡献。 文章最后对空间数据挖掘和地理知识发现对地理信息科学的贡献提出了一些看法。

1、引言

地理研究的许多领域是观察性的,而不是实验性的,因为空间尺度往往太大,而且地理问题太复杂,无法进行实验。 研究人员通过寻找模式、提出理论、用观察来检验假设来获得新的知识。 随着科学项目、政府机构和私营部门的不断努力,已经并将继续收集大量的地理数据。 利用现代数据收集技术,如全球定位系统(GPS)、高分辨率遥感、位置感知服务和调查以及基于互联网的自发地理信息数据库(Goodchild,2007) ,我们现在可以获得比以往任何时候都更加多样化、动态和详细的数据。 总的来说,地理学和相关的空间科学已经从数据匮乏的时代进入了数据丰富的时代(Miller amp; Han,2009)。 大量高分辨率空间和时空数据的提供为获得新知识和更好地理解复杂的地理现象(如人类与环境的相互作用和社会经济动态)以及解决紧迫的现实世界问题(如全球气候变化和大流行性流感的蔓延)提供了机会。

然而,传统的空间分析方法是在数据相对稀缺和计算能力不如今天强大的时代发展起来的(Miller amp; Han,2009)。 面对日益增多的海量数据和它们可能回答的复杂的分析问题,传统的分析方法往往有以下三个限制中的一个或多个。 首先,大多数现有的方法侧重于一个有限的视角(如单变量空间自相关)或一个特定类型的关系模型(如线性回归)。 如果所选择的透视图或假设的模型不适用于未被分析的现象,那么分析最多只能表明数据没有显示有趣的关系,但不能提供任何其他选择。 其次,许多传统的方法不能处理非常大的数据量。 第三,新出现的数据类型(如移动对象的轨迹、嵌入在网页中的地理信息以及监控视频)和新的应用需要新的方法来分析这些数据并发现嵌入的模式和信息。

迫切需要有效和高效的方法从空前庞大的数据集(如数百万次观测)、高维数(如数百个变量)和复杂性(如异质数据源、时空动态、多元联系、显性和隐性空间关系和相互作用)中提取未知和意外的信息。 为了应对这些挑战,空间数据挖掘和地理知识发现已成为一个活跃的研究领域,侧重于从海量和复杂的空间数据库中提取有用信息和知识的理论、方法和实践的发展。(Andrienko amp; Andrienko, 1999; Chawla, Shekhar, Wu, amp; Ozesmi, 2000; Gahegan,2003; Guo, Peuquet, amp; Gahegan, 2003; Guo, Chen, MacEachren, amp;Liao, 2006; Han, Koperski, amp; Stefanovic, 1997; Keim, Panse, Sips,amp; North, 2004; Knorr amp; Ng, 1996; Kulldorff, 1997; Mennis amp; Liu,2005; Miller amp; Han, 2009; Miller amp; Han, 2001; Openshaw, Charlton Wymer, amp; Craft, 1987; Shekhar, Zhang, Huang, amp; Vatasavai, 2004).

空间数据挖掘深深扎根于传统的空间分析领域(如空间统计学、分析制图学、探索性数据分析分析)以及统计学和计算机科学中的各种数据挖掘领域(如聚类、分类、关联规则挖掘、信息可视化分析和可视化分析)。 其目标是整合和进一步发展各领域的方法,以分析大型和复杂的空间数据。 毫不奇怪,空间数据挖掘的研究工作经常被放在不同的伞下,如空间统计学、地理计算、地理数据可视化数据挖掘和空间数据挖掘,这取决于研究所关注的方法的类型。

数据挖掘和知识发现是一个涉及多个步骤的迭代过程,包括数据选择、清理、预处理和转换; 先验知识的合并; 使用计算算法和 / 或可视化方法进行分析,对结果进行解释和评价; 提出或修改假设和理论; 调整数据和分析方法; 再次评价结果等(Fayyad,Piatetsky-Shapiro,amp; Smyth,1996)。 数据挖掘和知识发现本质上是探索性的,比传统的统计方法更具有归纳性。 它自然地适合于演绎发现过程的初始阶段,在这个阶段,研究人员根据观察数据中发现的信息发展和修改理论(Miller amp; Han,2009,第4页)。

在文献中,知识发现是指上述的多步骤过程,而数据挖掘则被狭义地定义为计算、统计或可视化方法的应用。 然而,在实践中,任何数据挖掘方法的应用都应遵循上述程序,以确保得出有意义和有用的结论。 在本文中,'空间数据挖掘'和'地理知识发现'这两个概念可以互换使用,它们都涉及到整个知识发现过程。

2、常见的空间数据挖掘任务

空间数据挖掘是一个新兴的研究领域,目前还处于起步阶段。 在过去十年中,由于全球定位系统技术、基于网络的空间数据共享和制图、高分辨率遥感和基于位置的服务的广泛应用,越来越多的研究领域创造或获得了获取高质量地理数据的机会,将空间信息和分析纳入各种研究,如社会分析(Spielman amp; Thill,2008年)和商业应用(Brimicombe,2007年)。 除了研究领域,私营企业和公众对提供地理数据和利用海量数据资源满足各种应用需求也有着巨大的兴趣。 因此,预计未来几年将有越来越多的空间数据新用途和新的空间数据挖掘方法出现。 虽然我们试图在这一部分提出一个共同的空间数据挖掘方法的概述,读者应该知道,空间数据挖掘是一个新的和令人兴奋的领域,其边界和潜力尚未定义。

空间数据挖掘包含各种任务,对于每个任务,通常可以使用许多不同的方法,无论是计算方法、统计方法、可视方法,还是它们的某种组合。 在这里,我们只简单介绍一组选定的任务和相关方法,包括分类(监督分类)、关联规则挖掘、聚类(无监督分类)和多变量地理数据可视化。

2.1. 空间分类与预测

分类是根据数据项的属性(属性值)将其分组为类(类别)。 与非监督分类(聚类)相反,分类也被称为监督分类。 '监督'分类需要一个训练数据集来训练(或配置)分类模型,一个验证数据集来验证(或优化)配置,以及一个测试数据集来评估训练模型的性能。 分类方法包括决策树分类、人工神经网络分类、最大似然估计分类、线性判别函数分类、支持向量机分类、最近邻分类和案例推论分类。

空间分类方法扩展了通用分类方法,不仅考虑被分类对象的属性,而且考虑相邻对象的属性及其空间关系(Ester,Kriegel,amp; Sander,1997; Koperski,Han,amp; Stefanovic,1998)。 提出了一种空间分类的可视化方法(Andrienko amp; Andrienko,1999) ,将传统的 C4.5(Quinlan,1993)算法导出的决策树与地图可视化相结合,揭示分类规则的空间模式。 决策树归纳法也被用来分析和预测空间选择行为(Thill amp; Wheelerm,2000)。人工神经网络(ANN)在空间分析中已被用于各种各样的问题(Fischer,1998; Fischer,Reismann,amp; Hlavackova-Schindler,2003; Gopal,Liu,amp; Woodcock,2001; Yao amp; Thill,2007)。遥感是一个主要领域,通常使用分类方法分类图像像素到标记类别(例如,Cleve,Kelly,Kearns,amp; Morltz,2008)。

空间回归或预测模型形成了一个特殊的回归分析,它考虑到了附近邻居的独立和 / 或因变量来预测特定位置的因变量,如空间自回归模型(Anselin,Syabri,amp; Kho,2006; Cressie,1983; Pace,Barry,Clapp,amp; Rodriquez,1998)。 然而,SAR 等空间回归方法往往涉及 n 乘 n 空间权重矩阵的处理,如果 n 较大,则计算量较大。因此,最近的研究努力寻求发展方法来寻找近似解决 SAR,以便它可以处理非常大的数据集(Griffith,2004; Kazar,Shekhar,Lilja,Vatsavai,amp; Pace,2004; Smirnov amp; Anselin,2001)。

2.2. 空间关联规则挖掘

关联规则挖掘最初是为了发现大型事务数据库中条目之间的规则(Agrawal,Imielinski,amp; Swami,1993)。 设 i { i1,i2,... ,im }是一组项目(例如,在交易中购买的项目,如计算机、牛奶、自行车等)。 设 d 是一组事务,其中每个事务 t 是一组项目,如 t # i,设 x 是一组项目,而事务 t 被称为包含 x 当且仅当 x # t。 关联规则的形式是: x) y,其中 x i; y i 和 x y # 。 如果 d 中包含 x 的所有事务的 c% 也包含 y,则规则 x) y 在事务集 d 中保持可信度 c。规则 x) y 在事务集 d 中有支持 s,如果 d 中的事务 s% 包含 x [ y ]置信度表示强度,支持度表示规则的延迟。 通常需要注意那些有相当大支持的规则(Agrawal 等人,1993)。

类似于在事务型或关系型数据库中挖掘关联规则,空间关联规则可以通过考虑空间属性和谓词在空间数据库中挖掘(Appice,Ceci,Lanza,Lisi,amp; Malerba,2003; Han amp; Kamber,2001; Koperski amp; Han,1995; ennis amp; Liu,2005)。 空间关联规则表示为 a) b [ s% ,c% ] ,其中 a 和 b 是空间或非空间谓词集合,s% 是规则的支持,c% 是规则的可信度。

显然,空间关联规则中可以使用许多可能的空间谓词(例如,close to、 far away、 intersect、overlap 等)。 在从大型空间数据集生成关联规则时,需要考虑各种空间谓词,这在计算上是非常昂贵的。 空间关联规则挖掘的另一个潜在问题是可能产生大量规则,其中许多规则是显而易见的或常见的知识。 需要领域知识来过滤掉琐碎的规则,只关注新的和有趣的发现。

空间同位模式挖掘在精神上与关联规则挖掘相似,但在技术上有很大不同(Shekhar amp; Huang,2001)。 给定一个空间特征及其位置的数据集,同位模式代表经常位于一起的特征子集,例如某种鸟类倾向于栖息在某种树木上。 当然,一个位置不是一个事务,两个特性很少在完全相同的位置存在。 因此,需要使用用户指定的邻域作为容器来检查在同一邻域内共位的特性。 已经提出了挖掘空间同位模式的措施和算法(Huang,Pei,amp; Xiong,2006; Lu amp; Thill,2008; Shekhar amp; Huang,2001)

2.3. 空间聚类、区划与点格局分析

数据聚类被广泛用于数据分析,它将一组数据项组织成组(或集群) ,以便同一组中的项彼此相似并且不同于其他组(Gordon,1996; Jain amp; Dubes,1988; Jain,Murty,amp; Flynn,1999)。 聚类方法在统计学、模式识别、数据挖掘、机器学习和空间分析等领域得到了广泛的应用。

聚类方法大致可分为两类: 划分式聚类和层次式聚类。 划分聚类方法,如 k 均值和自组织映射(SOM)(Kohonen,2001) ,将一组数据项划分为若干不重叠的聚类。 根据接近度或不同度量,将数据项分配给'最接近'的集群。 另一方面,层次集群通过一系列嵌套的分区或分组将数据项组织成层次结构(Jain amp; Dubes,1988)。 常用的层次聚类方法包括 Ward 方法(Ward,1963)、单连锁聚类、平均连锁聚类和完全连锁聚类(Gordon,1996; Jain amp; Dubes,1988)。

为了考虑聚类中的空间信息,研究了空间聚类(即空间点聚类)、区域化(即具有地理邻近性约束的聚类)和点模式分析(即具有空间扫描统计的热点检测)三种聚类分析方法。 对于第一种类型,即空间聚类,通过空间属性(如位置和距离)定义数据点或聚类之间的相似性。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20152],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。