基于LiDAR衍生的森林变量估计的机器学习回归技术的比较外文翻译资料

 2022-11-22 16:24:46

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于LiDAR衍生的森林变量估计的机器学习回归技术的比较

关键词:LiDAR 机器学习 回归 遥感

摘要:激光探测和测距(激光雷达)是一个能够提取三维信息远程传感器。森林地区的环境模式在过去几年中受益于LiDAR衍生的信息。以前,逐步特征选择的多元线性回归(MLR)是文献中开发这些模型的最常见的方法。 MLR定义了现场测量集和从LiDAR飞行中提取的统计数据之间的关系。机器学习已经成为改进LiDAR经典逐步MLR结果的合适工具。不幸的是,很少有研究比较多机器学习方法的质量。本文介绍了经典的基于MLR的方法与机器学习回归技术(神经网络,支持向量机,最近邻,随机森林等综合体)的比较,特别强调回归树。所选技术适用于卢戈省(加利西亚,西班牙)两个地区的实际LiDAR数据。结果证实,经典的MLR优于机器学习技术,具体来说,我们的实验表明,支持向量回归与高斯内核的统计学性能优于其余的技术。

  1. 引言

光检测和测距(LiDAR)是一种基于激光的远程技术,与光学传感器不同,它能够确定物体的高度。 LiDAR能够测量从源到物体或表面的距离,不仅提供x-y位置,而且可以测量每次撞击的坐标z。 通过考虑发射器的位置来测量脉冲发射与反射信号的检测之间的时间来确定到物体的距离。

LiDAR传感器已经改变了对自然环境进行许多重要任务的方式。 以前用昂贵或不总是可行的现场工作完成的工作部分地被机载LiDAR点云(从LiDAR飞行获得的初始产品)的处理所取代。 虽然数字高程模型的发展传统上是LiDAR的主要用途,但其他用途的应用也可以在文献中找到。 因此,研究工作通常旨在从LiDAR中提取描述性变量,并用于开发与城市或环境测绘和森林管理相关的产品。 对于这些任务,机器学习和更精确的监督学习通常是分类形式的选定工具(在大多数城市或环境绘图方法中使用)和回归(最常见于生物物理变量的估计)。

关于分类,我们可以找到技术,例如应用于LiDAR的支持向量机或随机森林(RF)(与其他信息源隔离或融合,例如多光谱图像),用于开发森林清单或燃料模型。 但即使分类对于LiDAR而言也是重要的,研究人员特别专注于推导与LiDAR提取垂直信息的能力相关的变量,然后与现场测量建立关系。 因此,回归技术得到更多的关注,以改善经验模型。 根据这一理念,目前可以找到LiDAR用于不同的任务,如估计森林地区的生物量或建筑年龄的预测。

通在森林LiDAR衍生模型的情况下,我们可以观察到多元线性回归(MLR)通常是估计LiDAR统计学回归参数的主要工具。 使用这种方法的主要优点是所得模型的简单性和清晰度。 相比之下,所选择的方法也有一些缺点:该过程提供了一组具有很少物理理由的高度相关的预测因子,并且作为参数化技术,仅当满足诸如正态性,同质性,独立性和线性度的假设时才被推荐。

考虑到以前的想法,重要的是要总结出正在审查在现场工作数据和LiDAR之间开发回归模型的方法。 因此,机器学习非参数回归技术已经开始成功应用。

我们在这项工作的目的是在一个框架中比较最知名的机器学习的回归技术。 因此,当我们应用于森林变量估算时,我们可以建立一个排名,以帮助环境研究人员选择最合适的技术来满足他们的需求。 不同的技术已经在卢戈省(加利西亚,西班牙)两个不同地区的两个LiDAR数据集上进行了测试和统计学验证。

本文的其余部分安排如下。 第2节提供了对现有技术状况的总体回顾,第3节显示了本工作中使用的LiDAR数据的描述。 该方法在第4节中提出。所获得的结果,其统计验证和主要结论如第5节所示。最后,第6节致力于总结结论并讨论未来的工作方向。

  1. 相关工作

研究人员已经探索了森林变量估计的先进回归技术,最近的文献提供了与MLR相比较的适用性示例。 因此,Chen和Hay使用支持向量回归(SVR)来估计来自LiDAR数据和多光谱图像的植被生物物理特征,超过了经典的逐步回归。 他们的结果得到了Jachowski等人的证实。尽管SVR只适用于这种情况下的多光谱图像。

以射频等组合形式的决策树已经得到了很好的应用。 因此,Latifi等人 展示了它们如何用于生物量估计,并且在进化特征选择后优于经典逐步回归。 即使没有进化特征选择,其他研究人员也报告了类似的结果。 此外,它们不仅用于陆上生物量估算,而且用于模拟和预测海底站立和大型数据集,其性能与较小的一样。

除了SVR和RF作为最近在文献中发表的最广泛的机器学习回归技术,还研究了其他技术。 因此,Zhao等人提供了高斯过程(GP)和逐步MLR之间的比较,其中第一个在从点云中提取出一组复合特征之后,明显改善了结果。 Hudak等人将最邻近用于提取LiDAR与地块上几种植被物种的实地工作之间的关系。

虽然机器学习似乎适合于从LiDAR中提取有意义的信息,但是很少有研究来比较不同技术组合获得的回归的质量。例如,Gleason和Im [19]显示了SVR优于RF和Li等的方法的部分比较。在机器学习技术之间建立了深刻的比较,其中SVM和提升决策树通过简单的普通最小二乘法和任何先进的机器学习方法获得了最好的结果。最近Gagliasso等研究了线性回归,地理加权回归,梯度近邻,最相似邻居,RF估算和k最近邻(kNN)的预测性能,以估计生物量和基础面积。分析地面库存图,LiDAR数据,卫星图像和气候数据的组合,计算均方根误差(RMSE)和偏差,以测试不同的方法。在这种情况下,结果表明,对于生物量预测,kNN(k = 5)具有最低的RMSE和最小的偏差量。虽然对机器学习技术的比较通常需要对结果进行统计验证,但是对于以前的作品中没有提供任何统计学研究,这对于总结其结论是理想的。

Stojanova等人 对不同类型的回归树的结果进行了比较,特别是孤立的树木和合并如RF。 结果证实,当进行森林变量估算时,使用合并提高了性能。 虽然对结果进行了深入的统计验证,但是没有将其他家族如kNN或SVR的回归技术与回归树进行了比较。

在研究了最近的参考书目可能的改进之后,我们在一个共同的框架工作中比较了最著名的机器学习回归技术。 然后,我们在经过测试并在卢戈省(加利西亚,西班牙)两个不同地区的两个LiDAR数据集上进行统计学验证后,将其应用于森林变量估算。

  1. 材料

3.1 研究网站

本研究使用了伊比利亚半岛西北部两个森林地区(图1)中的空中LiDAR数据(有关这两个领域的更多细节可以在Goncalves-Seco等人和Gonzalez-Ferreiro等人中找到)。

第一个研究区域(以下简称A)位于Trabada,具体地位于Vilapena市(加利西亚,西班牙西北部; 644800; 4806600和645800; 4810600 UTM)。 Euca-lyptus globulus站立,低强度造林处理和高灌木的存在,主导森林类型。

第二个研究区域(以下称为站点B)也位于吉蒂里斯市的加利西亚(西班牙西班牙),覆盖了大约36平方公里的松散森林(边界586315; 4783000和595102; 4787130 UTM)。 该地区的主要森林类型及其立场也以低强度造林处理和高灌木的存在为特征

3.2 现场数据

收集了两个研究场地的现场数据,以获得本工作回归的因变量。 因此,在现场A定位和测量了39个实例(在研究场所中每个训练样本一个)。在现场B,进行了类似的过程,共54个图。 选择这些地块来代表研究的森林中现有的年龄,尺寸和密度范围。

对于位点A和B,使用Dieguez-Aranda等人报道的Galicia中的球形球菌的等式估算每棵树的生物量部分的干重。。 为了定义因变量,使用生物量分数的场测量(高度和直径)和估计的干重来计算每个图中的以下站点变量:站冠生物量eth;WcrTHORN;,站立茎生物量eth;Wst THORN;,站立地上生物量eth;WabgTHORN;。

在场地B的情况下,田间测量(高度和直径)以及生物量部分的估计体积和干重有助于估计每个地块中的以下附加站点变量:站立面积eth;GTHORN;,主导高度eth;HdTHORN;,平均高度eth;HmTHORN; ,和体积eth;VTHORN;。

图1: 位于卢戈省(西班牙西北部)的研究场所。 顶部:Guitiriz的研究网站。 底部:Trabada研究现场。

3.3 雷达数据

来自A站的LiDAR数据于2004年11月获得。第一次和最后一次返回脉冲已经注册。 整个研究区域飞行超过18条,每条飞行三次,平均测量密度约4脉冲m 2.场地B的LiDAR数据于2007年9月获得。平均激光脉冲密度为8 获得脉冲m 2。 为了获得两个额外的不同分辨率,对于每个飞行,进行基于在1m 2的网格单元中随机选择LiDAR脉冲的人为减少。 它们产生了两个新的LiDAR数据集,脉冲密度为0.5个脉冲。

两个研究点的强度值被归一化以消除路径高度变化的影响。 FUSION软件进行数字地形和天棚模型(DTM / DCM)的过滤,插值和开发。 该软件还提供了与四个数据集(来自研究场所A和B的原始数据和缩减数据)的场地图范围内的高度和返回强度分布相关的变量。 表1显示了本文中使用的完整指标集和相应的缩写。

从现场数据和从LiDAR获得的统计数据,我们构建了60个数据集。 每个数据库由一个研究点和一个从属变量(野外作物衍生的森林变量)提取的48个独立变量(表1中的COVERFP和RETURNS以及强度和高度计算的其余变量)组成 。 该程序总共提供了20个数据集(4个和8个站点A和B的森林变量分别乘以2个不同的分辨率)。 剩余的40个数据集是使用前20年文献中常用的两种特征变换(幂和指数)得到的。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26582],资料为PDF文档或Word文档,PDF文档可免费转换为Word

Description

Abbreviation

Description

Abbreviation

Percentage of first

25th percentile

P25

returns over 2 m

COVER_FP

50th percentile

P50

Number of returns above 2 m

RETURNS

75th percentile

P75

Minimum

MIN

5th percentile

P05

Maximum

MAX

10th percentile

P10

Mean

MEAN

20th percentile

P20

Mode

MODE

30th percentile

P30

Standard deviation

SD

40th percentile

P40

Variance

V

60th percentile

P60

Interquartile distance

ID

70th percentile

P70

Skewness

SKW

80th percentile

P80

Kurtosis

KURT

90th percentile

P90

Average absolute deviation

AAD

95th percentile

P95

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。