Aipred:一种灵活运用于预测空气污染的R包外文翻译资料

 2022-11-13 16:20:36

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


Aipred:一种灵活运用于预测空气污染的R包

M.Benjamin Sabath, MA Qian Di, ScD Danielle Braun, PhD Francesca Dominici, PhD Christine Choirat, PhD

生物统计学习系,哈佛大学公共卫生学院

摘要:细颗粒物(PM2.5)是美国环境保护局监管的空气污染物标准之一。有强有力的证据表明,暴露在有PM2.5的环境中会增加死亡率和住院风险。关于PM2.5对健康影响的大量流行病学研究为降低安全标准和告知监管者制定政策提供了必要的证据。然而,PM2.5的环境监测器(以及其他污染物的监测器)在美国各地都很少,因此仅根据监测器测量的PM2.5水平进行的研究将不可避免地排除了大量人口。解决这一问题的一种方法是开发基于卫星,气象和土地利用数据的模式预测当地PM2.5,NO2和O3。该模式的运行过程通常依赖于输入大量的数据,并且高度密集地计算以预测未监测区域中的空气污染水平。我们开发了一个灵活的R包,允许环境健康研究人员设计和训练能够预测多种污染物的时空模式,包括PM2.5。我们利用H2O(一种开源大数据平台)和云或集群计算系统结合从而实现它的性能和可扩展性。

关键词:机器学习;空气污染预测;环境健康

1 引言

1.1 PM2.5和健康

细颗粒物(PM2.5)是美国环境保护局监管的空气污染物标准之一。PM2.5的主要来源是化石燃料燃烧[添加参考 它被定义为固体或液体的悬浮颗粒小于直径2.5微米]。有强有力的证据表明短期和长期接触PM2.5环境与死亡率,住院治疗和许多其他对健康有害的结果之间存在关联。高浓度的PM2.5与预期寿命降低有关[4]。 此外,研究表明,即使低水平的PM2.5也与死亡率增加有关[7, 9]。低水平的PM2.5的影响是关键,因为环境保护局(EPA)法规目前将PM2.5的法定限制设定为每立方米12微克的年平均值。重要的是,这些研究未发现能引发阈值效应的证据,并指出与PM2.5相关的死亡率增加与暴露于低至每立方米5微克的PM2.5水平的联系还有待观察。

图1 污染监测器的分布和Di等人的模式的预测分布

1.2 研究PM2.5的挑战

研究PM2.5的影响为研究人员带来了许多挑战。传统研究依赖于PM2.5监测器的暴露数据[9]。 这种分析有局限性;由于PM2.5对健康的影响是局部的,基于监测数据的分析仅限于监测器所在的研究人群。PM2.5监测器往往被放置在城市地区和其他人口中心,限制了对这些地区的研究。此外,监视器很少,并不代表整个人群。典型的PM2.5研究队列往往比实际人口分布更加城市化和富裕[9]

为了更准确地估计PM2.5对健康的影响,多个小组试图开发在不存在监测器的地方估算PM2.5的方法[8,19]。 这通常采用统计和机器学习模式的形式,使用卫星和土地使用数据将PM2.5和其他污染物的值投射到没有持续测量的区域。

1.3 建模方法

各个小组已经开发了空气污染建模平台,其目标是使用有监测器和没有监测器的位置提供的信息来预测地面水平PM2.5。许多开发模式中使用的关键要素是气溶胶光学厚度(AOD),与大气中颗粒物水平相关的可见度量度。然而,这些测量值代表整层大气中存在的颗粒物质,并且不能为地面污染本身提供可靠的参考[19]。然后使用来自卫星,气象和土地利用来源的信息来试图估算地表PM2.5的水平。

一种用于帮助模拟PM2.5和其他污染物水平的全面覆盖数据的关键形式是化学传输模式(CTM)的结果。CTM是计算密度的大气模式,用于模拟大气中的物质流和化学反应。当与AOD的测量结合时,这些已被证明可以提供更精确的PM2.5测量[13,19]。许多方法还引入土地利用数据以进一步完善预测[8, 19]。这些信息可以用于基于标准线性的统计模式或与更复杂的机器学习方法进行组合,以生成预测。这些通常能够为大区域(例如美国大陆)产生1kmtimes;1km规模的预测[9] 以及整个北美[19]

由van Donkelaar等人发表的文章[19]可知,使用上述思路开发的两种模式是Di等人的模式[8] 。Van Donkelaar小组采用GEOS-Chem CTM预测的AOD水平作为最佳估算(OE)模式的先验,该模式以中分辨率成像光谱仪(MODIS)卫星估算PM2.5作为输入。然后使用有关城市土地覆盖,海拔以及PM2.5化学成分(构成总悬浮颗粒物的颗粒的化学成分)的GEOS-Chem投影信息来拟合地理加权回归,以模拟OE的偏差。模式与AERONET太阳光度计的PM测量值相比较。这种方法的一个有趣的点是研究人员故意选择不包括地面监视器的信息,因为他们希望他们的方法适用于几乎没有监视器的地方,例如加拿大北部。

与此相反,Di等人开发的模式[8], 严重依赖来自PM2.5监视器的数据来生成PM2.5的预测。他们采用数据密集型方法,使用来自MODIS卫星的AOD信息,地面反射率数据,GEOS-Chem整个大气层分布的地面PM2.5和气溶胶总水平的估算,来自北美的气象数据区域再分析项目,可能吸收PM2.5的气溶胶指数,以及土地利用信息,如海拔,道路密度,植被覆盖度和人口密度都可作为排放的合理参考,并有助于捕捉PM2.5的小规模变化水平。

这两种模式都已应用于健康研究,以确定低水平PM2.5的影响。在Di模式的条件下,估计PM2.5的年平均值与邮政编码相关联,然后与Medicare全因死亡率数据结合使用,以评估暴露于PM2.5的风险。通过结合预测,该研究能够分析来自低代表人群的数据,并证明即使在低水平,死亡率和暴露于PM2.5环境的增加之间也存在联系[7, 9]。这些结果也得到了欧洲和加拿大使用不同PM2.5预测技术的其他研究的证实[6, 15, 16]

1.4 术语的定义

本文中使用了许多术语,需要定义它们并放在我们的文中。我们将训练集定义为结果变量已知的数据集,并且所有协变量都是已知的或估算的,而测试集或其他的集合被定义为所有协变量已知或估算的集合,但结果变量不明。我们定义识别变量作为唯一用于标识观察的变量集,类似于数据库设计中密钥的概念。

表1 Di模式中使用的数据源和分辨率

输入类型

来源

空间的

解析度

气象资料

再分析

0.5°x 0.625°

AOD

maacus

1公里 x1 公里

表面反射

MOD09A1

500m x 500m

的CTM

GEOS-Chem

CMAQ

12k x 12k

吸收气溶胶

奥马乌维德

OMAEROe

0.25°x 0.25°

植被

MOD13A2

1公里 x1 公里

其他土地用途

NLCD

30m x 30m

1.5 PM2.5建模面临的挑战

所有方法中的一个统一因素是它们既是数据又是计算密集型的。在我们的工作中,我们使用以未处理的形式占用30 TB磁盘存储的数据。因此,对PM2.5和其他污染物建模方法的所有研究都必须考虑到该过程每个步骤的技术限制。通过内存移动大量数据,很快就会遇到系统限制,更不用说将它们输入神经网络或其他建模方法。因此,重要的是不仅要考虑预测方法,而且要考虑整个工作流程,并将其周围的所有工作视为单个预测平台。

作为这个问题的解决方案,我们开发了一个R包,我们称之为“airpred”,它实现了一个单一的预测平台,用于模拟空气污染数据。我们首先处理原始数据,以便可以用于预测。然后我们开发预测平台,它由两部分组成,第一部分包括对实现方法进行模式训练,这些方法通过更密集的计算方法在更高的空间分辨率下保持其性能优势,第二部分包括获得模式预测,使用训练的模式从感兴趣的附加数据集生成合理的预测。虽然下一节中描述的方法使用PM2.5作为示例,但是开发的R包是灵活的并且可以应用于任何污染物。

2 问题定义

在设计我们的平台时,我们需要考虑许多因素。首先是我们将使用哪种类型的数据源,包括文件类型和所代表的信息。其次,用户需要哪些功能,以及用户与我们的代码交互的最佳方式。最后,我们平台的计算基础架构会是什么样的,计算需求是什么,以及计算效率最高的数据处理方式是什么?

2.1数据源

PM2.5模式的数据输入有各种来源,其中主要包括来自NASA卫星的大气成像,CTM模拟的气象结果,地理信息以及土地使用信息(例如道路密度的测量)。这些数据是直接从各自的源下载或从公共数据库获取,因此具有不同的文件类型和空间分辨率。

我们设计了包来接受Di模式使用的数据源。这些数据均可从公共资源获得。但是,所有这些数据都有多种文件类型,并且具有不同的空间分辨率。数据包括栅格,质心,文本文件和形状文件,分辨率从土地使用数据的30米times;30米到CTM输入的12公里times;12公里(表1)。

在下载原始数据之后,执行反距离加权插值以将值分配到感兴趣的位置,即要在训练中使用的监视器的位置,或者是用于预测的其他规则分布的位置(通常称为网格)。由于空间和时间分辨率的变化,在插值过程中产生一些缺失。一些数据源,特别是那些表面反照率的来源,仅是每两周一次对指定位置进行观察。为了能使用这些数据,需要使得数据存在单个空间分辨率,具有规则的时间分辨率。在实践中,我们使用日常数据进行时间分辨,并将监视器的位置或1kmtimes;1km的网格用作空间参考。我们选择了1km xtimes;1km的网格,因为这是AOD数据的空间分辨率。

我们开发了代码作为R包的一部分,以将插值数据组合成数据帧,如结构,其中每行代表给定日期的给定站点(监视器或预测网格位置)的数据。为了进一步准备数据,进行一系列标准化(将变量重新调整为0到1之间),估算(使用我们数据集中的信息来估计不是结果变量的缺失数据的值)和变换(重新调整变量的值以使异常值更接近平均值)。

出于多种原因,我们严格执行上述每个步骤。我们实施插补步骤以增加模式训练期间可用的信息量,因为如果没有这个过程,缺少数据的观测将被排除在模式训练之外。我们执行规范化,因为大多数机器学习算法都是在假设所有特征在0和1之间缩放的情况下设计的。最后,我们选择转换,因为在钱迪等人[8] 描述的模式的最新实现中实现插补方法需要转换才能正常运行。

2.2用户需求

该方案的目标受众主要包括环境流行病学研究人员和环境科学家。因为R语言[17] 是这两个领域中常用的编程语言,我们选择以R包的形式实现处理。除了用户熟悉之外,R语言还具有能用于生态系统大型包的优势,允许我们使用其他人开发的系统,而不是全凭自己开发那么多程序。此外,通过使用R语言中开发,我们可以在CRAN上发布我们的程序包,CRAN是可以通过R语言中的内置函数访问的公共R程序包的存储库。所有R包都是开源的,使我们能确保所有使用的代码都是公开的。

此外,我们希望开发一个灵活性的平台,因为模式输入和统计模式本身也经常变化。鉴于这些频繁的变化,我们认为设计一个允许用户轻松更改这些元素而不对包的后台代码进行任何更改的系统非常重要。

同时,我们认为确保开发包使用的任何脚本的可读性和易用性非常重

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[18290],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。