鄱阳湖流域DEM生成的基于云计算的高精度表面建模方法外文翻译资料

 2022-08-19 15:58:06

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


外文译文

鄱阳湖流域DEM生成的基于云计算的高精度表面建模方法

摘 要

大空间数据的不断增长要求大规模的曲面建模方法。为了解决大规模曲面建模问题,在已有高精度曲面建模方法的基础上,提出了一种基于云计算的扩展高精度曲面建模方法。该方法在基于hadoop的四机云计算环境下运行,并应用于中国鄱阳湖流域数字高程模型构建。实验结果表明,基于云计算的方法明显优于基于单台计算机的一般顺序方法,速度提高了三倍。改进的基于云计算的HASM调度算法进一步加快了计算速度。

关键词 HASM;云计算;大比例尺建模;数字高程模型

  1. 引言

表面建模的目的是从已知的有限的散射数据中提供详细的表面信息,参考从采样的散射点、线和多边形等构建一个完整的表面的过程(Yue 2011)。地表建模在数字高程模型(DEM)、生态学、地球信息科学、水文学等诸多领域的研究中得到了广泛的应用。(约翰2012;Fisher和Tate 2006)。曲面的精度对相关应用至关重要(Fisher和Tate 2006)。精度高的曲面模型优于精度低的曲面模型。然而,传统的曲面建模方法大多存在严重的误差问题,只能生成精度较低甚至无法使用的曲面(Fisher and Tate 2006)。高精度曲面建模(HASM)是为了解决误差问题而开发的,在许多应用中已经被证明具有比大多数传统方法(如Kriging、SPLINE、IDW)更高的精度(Yue 2011)。然而,与许多其他方法一样,这种方法是计算和内存密集型的(Yan等,2016)。也就是说,对于一个规模较大的建模问题,HASM的内存和计算时间要求非常大,往往超出了一台常用计算机的处理能力,这就制约了它在涉及数千GB数据的大规模曲面建模问题上的应用。

另一方面,地球观测技术、遥感和成像技术的迅速发展,使得大规模空间数据集日益可用(Eldawy和Mokbel 2015)。这些数据的大小通常为数千GB,甚至TB和PB,远远超过一台普通计算机的容量。高速、大规模的曲面建模是众多涉及此类数据集的相关应用的迫切需求。这进一步扩大了曲面建模方法的不足与大规模空间数据曲面建模的需求之间的差距。应该找到方法来弥补这一差距。

新兴的云计算技术为解决这一问题提供了重要的机遇。云计算具有高弹性、可扩展性、低能耗等特点,可以集成大量的低端或高端计算机,驱动它们并行执行大量任务(Zhang et al. 2010)。利用云计算,巨大的计算或数据处理任务可以被分成大量的较小的任务,这些任务将被分配给有组织的计算机,并同时执行。因此,在这样一个分布式环境中,内存和计算密集型问题可以得到解决。

在本文中,我们将开发一个基于云的HASM版本,用于大规模的曲面建模,这超出了单台计算机的处理能力。该方法将为此类曲面建模问题提供一种解决方案,可以进一步拓展HASM在空间大数据时代的应用。这份手稿可以分为六个部分。“介绍”clarifes开发云computing-based方法的本质,“相关研究”总结了相关研究的艺术,“材料和方法”介绍了材料和我们的对比方法的框架和实现细节,“实验”介绍了实验,结果,“讨论”使讨论结果,“结论”的结论是这手稿。

  1. 相关研究

如前所述,曲面建模是根据已知数据预测未知数,由此得到的曲面点是对未知数的估计,无疑会出现误差问题(Fisher and Tate 2006)。实际上,误差问题一直困扰着曲面建模领域(Yue 2011)。为了解决误差问题,基于曲面定理,提出了高精度曲面建模方法,并被证明在精度上优于其他方法(Yue 2011)。该方法虽然具有较高的精度,但计算时间较长,不适用于大规模曲面建模。这是由于这种方法涉及一个相当耗时的过程求解一个大规模线性系统由离散的部分微分方程组。已经采用了几种方法来克服这些限制,包括不同的数值方法和11个现代计算硬件(Yan et al. 2015)。虽然这些措施在一定程度上改善了HASM,但受到单机运行的限制,不能从根本上解决问题,特别是对于大规模曲面建模。因此,应该采取新的措施来进一步解决这个问题。

近年来,云计算发展迅速,并成为大规模数据处理和密集型计算的一个很有前途的选择,因为云计算的突出特点是将大量计算机集成在一起,以分而治之的方式组织它们完成一个大规模的任务(Mell和Grance 2011)。在云计算环境中,大问题转化为大量的小问题,这些小问题可以用常用的计算机轻松地处理,最后将结果进行组合,得到大问题的整体结果。

如今,云计算越来越多地被用于解决大规模计算和数据密集型问题(Sugumaran et al. 2014;Gunarathne等,2011)。Vecchiola等人(2009)提出了一项关于云计算科学计算的研究,包括基因表达数据分类和脑成像工作的执行,这表明科学计算可以从云计算的有效使用中受益。

Zhao等人(2009)提出了一种用于大规模数据聚类的云计算解决方案,证明了云计算对大数据集处理的能力。

基于云计算,提出并实现了基于voronoi的地理空间查询处理(Akdogan et al. 2010),结果表明该方法显著提高了性能。

Stein(2010)对云计算在基因组信息学中的应用进行了全面的综述,指出现在是将计算密集型和数据密集型基因组迁移到云计算平台的时候了。

Gunarathne等(2011)利用各种云计算平台在生物医学领域的计算密集型应用,分析了不同云计算平台与不同生物医学应用的12种效率差异,证明了云计算的效率。

随着遥感影像、激光雷达数据等空间大数据在地理空间科学领域的快速增长,对计算机的数据处理和相关运算能力提出了很大的挑战,包括从图像中提取特征和大量的遥感图像管理(Almeer 2012)。因此,云计算已经发展成为空间云计算(SCC),为解决空间大数据在建模、存储、处理等方面带来的巨大挑战提供了一个弹性的、随需应变的计算平台(Yang et al. 2011)。

海量图像数据的处理是SCC应用的一个重要方面。为了克服大规模遥感数据带来的挑战,提出了一种基于云计算平台开源软件HADOOP的基于SCC的并行图像处理算法,并展示了其相对于单机实现的优越性(Gunarathne et al. 2011)。

空间数据插值是地理空间科学中另一种重要的操作方法,它可以从SCC中获益。为了克服大规模激光雷达点云的挑战,仍然基于Hadoop,提出了一种基于激光雷达点云的DEM生成算法,并证明了Hadoop平台的有效性(Jian et al. 2015)。

基于Hadoop,提出了采用反距离加权插值方法求解大空间点插值的方法(Xu et al. 2015)。实验结果表明,基于云计算的分布式IDW算法对大规模数据集具有良好的加速性能,空间插值的计算效率得到显著提高。

另外,为了方便SCC在地理空间科学中的应用,一些研究者利用Hadoop构建了分布式GIS平台来解决某些问题。基于Amazon EC2,开发新的处理技术,搭建相应的平台,智能地对激光雷达点云进行flter和三角化设置,生成精确的数字高程模型(Hegeman et al. 2014)。

HASM作为一种新型的、高精度的曲面建模方法,应结合SCC的优点,开发出适用于大规模地理空间曲面建模的新版本。因此,可以引入云计算来克服内存和计算密集型的HASM问题,赋予HASM大规模的表面建模能力。

  1. 材料和方法
    1. 研究领域介绍

选择中国鄱阳湖盆地作为基于云计算的HASM方法的研究区域。鄱阳湖盆地位于中国东南部长江中下游南岸,纬度范围为北纬24°29′14”至北纬30°04′41”,经度范围为东经113°34′36”至东经118°28′58”。总面积16.69万平方公里,约占江西省总面积的97%。东临浙江、福建,南接广东,西接湖南,北接湖北、安徽。它的三面环山,西面是沐福山、九岭山、罗孝山,东面是淮余山、武夷山,南面是九莲山、大余山。鄱阳湖盆地的南半部是丘陵,其间有山脊和山谷,而北半部则更宽、海拔更低。江西的最高点是武夷山中的黄冈山,与福建接壤。海拔2157米。山地和丘陵面积分别占总面积的35.9%、42.3%、16.69万平方公里,平原面积占10%、水域面积占21.8%。

鄱阳湖流域地形地貌复杂,是重要的生态研究区域,高精度、高分辨率的数字高程模型(DEM)对环境和水文模拟具有重要意义。此外,该地区是如此之大,迅速建立这样一个高分辨率的DEM表面是超越了一个单一的计算机的能力。因此,适合于基于云计算的HASM表面建模实验。

    1. HASM原则

如前所述,HASM是根据曲面定理(Yue 2011)开发的。对于一般的三维曲面

z = u(x, y), (1)

式中(x, y, z)表示任意曲面点的坐标,u是x, y, z之间的曲面函数。曲面由第一个基本系数E, F, G和第二个L, M, N唯一赋值,分别表示为(2)和(3)

E = 1 u2x ; F = ux .uy; G = 1 u2y ,(2)

其中下标x, y, xx, xy, yy表示对x的导数。

根据定理,对于曲面(1),这些基本系数应满足以下偏微分方程组:

  1. 通过向差离散化可以转化为以下迭代形式:

其中上标(n)或(n 1)表示迭代次数,h表示步长。

加上表示已知数据的约束条件,将(6)15改写为矩阵形式,则(6)的解可转化为如下最小二乘形式:

可以进一步转化为线性系统(8)(Yue 2011)。MX (n 1) = N(n).(8)

最后将曲面造型问题转化为求出式(8)的解。

该线性系统规模庞大,使得HASM方法计算量大,数据量大。为了求解这个线性系统,需要存储一个大的系数矩阵和其他相关矩阵。根据分析(Yan et al. 2016),对于待建模的曲面,总的内存消耗大约是内存消耗的9n倍。对于4096times;4096的曲面,其所需内存约为4gb(计算方法为4096times;4096times;9times;32位/4/1024/1024 GB) (Yan et al. 2016),其特点是HASM方法是数据密集型的。为了解决这个问题,应该开发一个基于云计算的HASM。

    1. 云计算和Hadoop

云计算指的是作为服务交付的应用程序和管理和调度硬件资源的硬件和软件(Armbrust et al. 2009)。云计算涉及的最关键的问题是如何跨集群存储大规模数据,如何组织集群执行分布式计算任务,这些问题由分布式fle系统(DFS)和分布式处理框架MapReduce解决。

Hadoop是用于云计算的开源系统软件,包含DFS和 MapReduce组件的阵营。DFS,名为Hadoop分布式文件系统 (HDFS),旨在提供有效和可靠的访问计算环境 (Borthakur2007).HDFS具有质量ter由一个NameNode组成, 该NameNode是负责管理文件名称空间和调整客户端文件访问 以及几个(也许是大型)DataNode,它们是负责存储数据块。 大规模存放时HDFS中的文件,它们将首先被分割为块,然后然 后复制成多个副本,这些副本将存储在其中不同的datanode分 开。块存储记录将作为元数据存储在NameNode中。如果 DataNode关闭 ,NameNode可以 读取 数据 从 另 一 个存储副本 的DataNode。这样,大型的球类,谁的大小超过1gb,甚至 1tb,可以存储和接入快捷、稳定、可靠。

MapReduce框架由一个主节点和多个从节点组成,主节点可以从多个客户端接收提交的MapReduce作业,从节点可以执行由主节点分配的计算作业。主服务器将工作推给云计算环境中可用的任务节点,努力使任务尽可能接近数据。

在MapReduce框架中,一个称为JobTracker的模块在主节点上运行,而许多其他模块称为TaskTracker在从节点上运行。JobTracker负责将作业分解成任务,并将这些任务交付给空闲的从节点,而TaskTrackers负责执行任务。当TaskTracker失败或超时时,任务的这一部分将被重新安排到另一部分。

每个提交给MapReduce框架的任务,一般包括map和reduce两个阶段,分别用map函数和reduce函数实现。map任务通常执行由大任务分解产生的小任务,而reduce任务负责单个任务结果的组合。

3.4.基于云计算的对比

基于云的HASM是为了利用云计算技术解决大规模地表建模问题而设计的。当对大型曲面进行建模时,应该将其划分为多个块,并且需要构建一个二叉树来组织这些划分的块。为了有效地进行曲面建模,应将曲面面积分割成大小近似相等的多个块,并将这些块组织成二叉树。二叉树的所有节点都是17个编码,由0 s和1 s组成,每个块存储为单独的fle。这些球类都以对应节点的代码命名,以记录相邻关系。一旦组织完成,所有的block都会被上传到HDFS fle系统。

      1. 映射和简化过程

如前所述,MapReduce负责任务处理。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[410310],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。