英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
科学大数据与数字地球
Huadong Guo bull; Lizhe Wang bull; Fang Chen bull;Dong Liang
摘要:大数据一直是科学、技术、经济和社会研究的焦点。许多国家已经将大数据研究纳入国家战略。本文从时空的角度阐述了大数据的起源、内涵和发展。随着科学研究范式从模型驱动向数据驱动的转变,科学大数据将成为科学研究的一种新的解决方案。本文界定了“科学大数据”的概念,并提出了解决“科学大数据”问题的策略。讨论了数字地球的理论框架和数据系统,明确了科学大数据是数字地球的一个显著特征。以数字地球大数据计算与分析为背景,探讨了中国黑河-腾冲线的形成机制的空间认知。
关键词 大数据;科学大数据;数据密集型科学;地球科学;数字地球
1 引言
19世纪70年代以来,新技术和新发明层出不穷。自从第二次工业革命开始,数据载体几乎每十年翻一番。从工业时代到信息时代,信息技术革命在社会、科学、技术和经济发展中发挥了前所未有的决定性作用。数据量不断增加,每3年翻一番。在过去的10年里,计算机技术和互联网的快速发展促进了半结构化和非结构化数据的出现,如音频、视频、文本和图像。社交网络服务、物联网和云计算得到了广泛使用,数据量和类别正在快速增长。大数据时代悄然来临[1-4]。根据国际数据公司(IDC)的一篇文章[5],到2020年为止,所有创建、复制和消费的数字数据每两年将翻一番(图1)。2011年,全世界创建、复制和消费的数据量约为1.8 ZB。IDC估计,到2020年,这个数字将达到40ZB,中国的全球市场份额将从2012年的13%上升到21% 。
数据生产模式已经经历了被动系统操作和主动用户生成内容的阶段,现在已经进入了自动感知系统的阶段[6]。这一飞跃是新兴大数据的关键因素。与其他研究创新一样,大数据也正在从概念阶段向小规模技术实践过渡,最终将成为一个新兴的研究方向。图2简要描述了大数据的发展过程。《自然》杂志在2008年9月率先发行了一期关于“大数据”的特刊[7]。这表明大数据的影响已经扩展到自然科学、社会科学、人文科学和工程学等领域。第四种范式:数据密集型科学的发现[8],由微软研究院于2009年10月发布,与大数据密切相关,指出数据密集型科学发现范式已经建立并得到广泛认可。2010年2月发表在《经济学人》上的《数据,无处不在》一书扩展并推进了大数据的概念[9]。2011年2月,《科学》杂志发表了一期名为《处理数据》的专刊[10],麦肯锡全球研究所(MGI)发布了《大数据:创新、竞争和生产力的下一个前沿》(Big data : the next frontier for innovation,competition,and productivity)的专刊[11],声称大数据已经成为社会科学研究领域的热门话题。2012年5月,联合国全球脉搏发表了一份白皮书《大数据促进发展:机遇与挑战》[12],建议大数据研究项目/计划推动国家战略。2012年6月,Gartner Group在“大数据的重要性:定义”中提出了大数据的“4V”定义[13],主张理解大数据的概念基础。《美国国家科学院院刊》(PNAS)发表的《下一代数字地球》(Next generation Digital Earth)一文[14]表明,人类已经进入大数据时代,大数据将在下一代数字地球中发挥关键作用。“数字地球大数据与未来地球”专题会议于2013年4月在第35届国际环境遥感研讨会上召开。由国际科学理事会(ICSU)科学技术数据委员会(CODATA)召集,六个国际组织和中国科学院遥感与数字技术研究所共同主办的“国际科学计划大数据:挑战与机遇”国际研讨会地球,发生在2014年6月。研讨会旨在进一步阐明大数据在国际和跨学科研究活动中的潜在作用。会议指出,大数据在空间和地球科学领域受到越来越多的关注和接受。
数据不仅是一种资源,更是一种财富。庞大而复杂的数据将推动社会、科学、技术和经济的发展。许多国家和国际组织已经在其国家和国际战略中推动了大数据研究。这必将给未来带来深刻的变化。图3显示了不同国家对大数据的关注程度。美国、欧盟、澳大利亚、日本、韩国等国在国家或政府间层面开展了大数据研发项目。2014年5月,美国总统办公室的执行官发布了一份关于大数据和隐私的报告《大数据:抓住机遇,维护价值》,以及一系列支持文件,例如“大数据与隐私:技术视角”。报告讨论了大数据技术与隐私之间的冲突,并提出了六条建议,以提高和最大限度地发挥大数据的优势,同时最大限度地降低其风险[15,16]。大数据已经成为信息主权的一种体现;它将成为下一个国际辩论的主题,并将在边境、海岸和防空中发挥重要作用。大数据正在释放有趣的转型时代,它将改变人类的生活和我们对世界的理解。
图1全球数据量增长趋势,2006-2020
(基于“2020年的数字宇宙:大数据、更大的数字阴影、远东地区增长最大”)
2 科学大数据及其内涵
国内外学者都在试图分析和理解大数据的概念。当前对大数据的定义来自以下两个不同的角度:相对特征表示在可接受的时间内无法在公共设备上获取、管理或处理的数据集[20],而绝对特征通过“4V”定义大数据,即体积、多样性、准确性和可接受性速度[13]。
大数据研究不同于传统的逻辑研究。它利用分析归纳法对大量数据进行统计搜索、比较、聚类和分类。它涉及相关分析,意味着两个或多个变量的值之间可能存在一定的规律性,旨在揭示数据集中隐藏的相关网络[21]。
因此,可以看出,大数据计算的实质性特征包括从模型驱动科学到数据驱动科学的范式转变,以及数据密集型科学方法的建立。科学研究方法从一开始就采用了基于观察的科学,包括几千年前开始的实验科学、17世纪出现的理论科学和20世纪的计算范式。在当今的大数据时代,出现了一种新的数据密集型科学发现范式,这种范式较少依赖于模型和先验知识。通过从大量数据中寻找关系,可以发现和探索新模型、新知识和新规律。
科学大数据具有复杂性、综合性、全球化、信息与通信技术高度融合等特点。科学方法也正在从单一学科向多学科和跨学科转变;从自然科学向自然科学和社会科学的结合转变;从个人或小型研究团体向国际科学组织转变。除了科学家能够通过对各种相关数据的实时动态监测和分析,解决难以解决或无法触及的问题外,数据本身也可以成为研究的对象和工具:科学家可以根据数据构思、设计和实施他们的研究[8]。
科学大数据改变了科学世界,研究进入了一个新的范式——数据密集型科学范式。过去几年,美国国家科学基金会(NSF)通过项目支持数据密集型科学计算。得克萨斯高级计算中心与戴尔和英特尔合作,建造了一台世界级的超级计算机Stampede。踩踏事件是美国国家科学基金会投资于一个集成的先进网络基础设施的基石,该基础设施使美国的科学家和工程师能够以交互方式共享先进的计算资源、数据和专业知识,以便跨学科进一步研究。Stampede现在是NSF极端数字(XD)环境中16种高性能计算、可视化和数据分析资源中最强大和最有能力的一种。它具有综合处理能力、高可用性和高性能。它已经使研究团队能够预测地震发生的时间和地点,海平面上升的幅度,以及脑瘤的生长速度.加利福尼亚地震中心利用踩踏现象来预测加州破坏性地震的频率,德克萨斯大学奥斯汀分校的一个研究小组利用踩踏现象来更好地理解和描述南极海冰流入海洋的详细数值模型[22]。
尽管科学大数据已成为研究的重要内容,数据密集型科学发现范式已得到广泛认可,但其相关理论、方法和模型仍有待深入应用。目前,大数据的概念和应用已经被网络科学和经济领域所接受和发展。但相比之下,科学大数据的理论研究和实践却相对薄弱。这是因为它有自己特定的科学内涵,称为“3H”,包括以下三点:
(1) 高维度:科学大数据代表了自然科学和社会科学之间的复杂关系。一般来说,这些自然现象或科学过程的外部表征具有高度相关性和多重数据属性。原则上,科学大数据具有高维度[23]。作为地理信息系统中对大规模、复杂的社会经济现象进行时空分析的一个例子,空间中的每个坐标都覆盖着各种自然地理数据、空间观测数据、社会经济和文化数据。这些数据的相关性是复杂的,来自不同的传感器,具有不同的时空分辨率和物理意义[24]。
(2) 高复杂性:科学大数据大多适用于复杂的非线性系统,并伴随着复杂的数据模型。因此,科学大数据计算的问题不仅仅是数据处理和分析的问题,更是复杂系统建模和数据联合建模和计算的问题[25]。它需要综合复杂系统理论、估计理论和相应学科的机理模型来探索解决方案。现代气候科学就是一个例子[26]。
(3) 高度不确定性:一般来说,科学大数据来自感知和数据获取的自然过程。由于这些数据源的特点,科学大数据普遍存在一定的误差和不完整性,导致数据具有很高的不确定性。科学大数据通常应用于自然系统的学科,如气候变化和地球进程。系统由近似模型表示,伴随着高度不确定性[27]。这些模型的不确定性给计算科学大数据带来了巨大挑战。
为了克服大数据的挑战,特别是科学大数据的挑战,需要开发可计算性和解决方案策略方法。第一种方法是寻找近似解而不是精确解。在可接受的精度范围内,这是降低求解复杂性和提高效率的可行方法[28]。第二种方法是将大数据集转化为小数据集,通过稀疏表示和维数来获得解。最初的傅立叶变换和小波变换,以及当前最流行的压缩感知[29,30]和字典学习[31],都是基于这种思想。
图2大数据发展(基于谷歌趋势;2013年8月被收购)
3 数字地球的理论框架
1998年,阿尔·戈尔推广了数字地球的概念,以描述一个数字化的未来,在他的例子中,一个女学生可以与计算机生成的三维旋转虚拟地球互动,并访问大量的科学和文化信息[32]。10多年前一个流行的解释是:“把地球放进电脑里”。为商业、社会和科学应用开发了许多数字地球系统。2005年,谷歌地球使公众可以通过个人电脑自由探索地球表面。
在“大数据时代”,数字地球概念有了新的内涵。它是一个由大量、多分辨率、多时相、多类型的地球观测和社会经济数据以及分析算法和模型构成的虚拟地球[33–36]。大数据的诞生和发展给数字地球带来了新的挑战,并将其带入了新一代[37–39]。
基于上述描述,数字地球科学的基本问题包括以下两个方面:(1) 多源、多元、异构、多尺度、高时空属性、海量数据的聚合、表示和分析;(2) 复杂地球科学的构建、定量分析和建模过程和社会经济现象。
因此,数字地球的基本理论框架包括地理空间信息理论和地球系统科学理论。
地理空间信息理论包括地球观测数据获取模型、数据聚合模型和方法(包括地图认知、稀疏表示和数据融合)、数据表征理论、地理空间数据分析模型和理论、信息流模型和信息场理论。
地球系统科学的目的不是分析地球某一特定子系统的地球科学过程。它是重点研究复杂地质过程的时空分析、复杂非线性系统的建模理论和决策支持。具体而言,它包括以下内容:(1) 具有时空特性的地质过程的多变量和多尺度时空分析和决策支持;(2) 多变量、多过程、非线性和高度耦合的地球科学过程建模和系统分析。
4 数字地球与大数据
数字地球的科学和工程完全包含了前面提到的大数据的“4V”特征。图S1显示了数字地球中的地球观测数据流。可以看出,数字地球上的数据在规模上已经达到了EB的水平。它的主要数据包括图像、视频、文档和地理信息。它还涉及地球观测、科学模型、社会经济和其他数据类型[40]。其广泛的数据源、实时数据访问和快速更新导致数据密度较低。此外,新一代的数字地球系统有能力处理海量数据,并迅速将其转化为数据帮助应对灾害和生态问题的信息。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[405556],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 基于具有短时间基线的图像子集序列的永久散射体GB-SAR干涉法微形变监测:隔河岩大坝实例研究外文翻译资料
- 动态环境下RTK与PPP技术的对比分析外文翻译资料
- 在山地环境下进行水位提取的雷达和激光雷达测高任务的性能评价:以瑞士湖泊为例外文翻译资料
- 通过太空携带的激光测高法测量内陆水位:验证和比较在五大湖和密西西北河下游的三个任务外文翻译资料
- 虚拟三维城市建模技术与应用外文翻译资料
- 遥感影像变化检测方法研究进展分析外文翻译资料
- 数字高程模型的精度评估外文翻译资料
- 基于POI数据的城市中心识别与优化策略研究——以青岛市四区为例外文翻译资料
- 煤矿GPS沉陷监测技术及其应用外文翻译资料
- URTK:无差异网络RTK定位外文翻译资料