英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
空气污染和死亡率的关系分析:基于主成分的线性可加模型
Yaping Wang bull; Hoang Pham
摘要:本文提出了基于稳健主成分分析(PCA)方法的广义可加模型(GAM),来量化死亡率与大气污染物浓度之间的关系,特别是,另外,本文还综合考虑混杂长期趋势,季节性,工作日和气象因素的影响。两个将要施加GAM模型的主成分分析模型为:一是经典的PCA(CPCA),另一个是拥有最小方差行列式的稳健PCA(RPCA),可分别组合为CPCA–GAM和RPCA–GAM模型。对GAM、CPCA–GAM和RPCA–GAM进行分析比较,可以得到结论如下:(1)CPCA–GAM模型和RPCA–GAM模型得到的结果是一致的;(2)对于离群值的检测RPCA模型比CPCA更有效;(3)由于PCA可以消除协变量的多重共线性,所以得到的空气污染物的系数比没有与PCA模型结合的GAM更有意义。
关键词:空气污染物;每日死亡率;广义可加模型;主成分分析;最小协方差行列式;相对风险
1引言
1952年伦敦大烟雾灾难后,出现了大批关于检测大气污染与人类死亡率关系的研究,这些研究来自不同地方包括欧洲、美国和亚洲的城市,运用了时间序列或面板数据分析,这些研究都表明空气污染和基于不同原因的死亡率之间呈正相关(Scoggins等人,2004年;Borja-Aburt等人,1997年;Dockery等人,1993;Pham 2011年;Hong等,2002年;Katsouyanni等人,1997年;Lee and Schwartz等人,1999;Lee等人,1999;Lee等人,2000;Qian等人,2007年)。在韩国,Hong等人(1999)研究表明,PM10对所有原因造成的死亡率都有显著影响。Lee等人(2000)指出在氧化硫浓度低于世界卫生组织(世卫组织)标准的情况下,随着空气的污染,死亡率增加了。此外,总悬浮颗粒物和对死亡率的影响非常显著,而不是与。Hong等(2002)对这个突然出现的情况进行了研究。Kim等(2004)运用泊松线性回归和阈值模型,估计了韩国汉城臭氧对每日死亡率的相对风险(RR)。
一些研究认为空气污染物与死亡率之间的关系可能是非线性的。Daniel等(2000)研究了在空气动力学当量直径小于10um的颗粒物()和死亡率的非线性关系。Kim等(2004)确定关于臭氧对每日死亡率影响的阈值。然而,基本假设是空气污染与日死亡率之间是典型线性关系,通过检测空气污染物对死亡率的影响,RR估计是容易获得的。为了得到预期寿命的模型,Pham(2011)近日集中对美国1946至2005六十年间的死亡率进行分析。为了得到一个可行的结果,在本文的研究中使用广义线性可加模型(GAM)(Hastie和Tibshirani,1990)并考虑了空气污染物间的多重共线性问题。众所周知,普通的最小二乘估计对具有多重共线性的变量的估计有非常严重的方差膨胀。主成分分析是解决多重共线性的非常好的方法,因为它很容易理解和计算。
在本文中,我们系统地介绍建模方法,以量化的日常死亡率和的浓度之间的关系,在多变量模型中调整混杂变量。首先,我们建立了由长期趋势,气象因素、季节性因素,与工作日组成的一个基本的GAM模型。其次,在此模型的基础上,我们通过每种污染物的GAM模型确定每个空气污染物的滞后效应。第三,主成分分析是用来消除空气污染物变量之间的多重共线性。两种不同的主成分分析方法均被用到:一种是经典的主成分分析法和
另一个是有最小方差行列式(MCD)的稳健PCA(RPCA)模型。最后建立反应变量的基于主成分半参数GAM回归模型。对GAM模型、CPCA-GAM和RPCA-GAM模型的结果进行相互比较,得到了大气污染物对死亡率的影响一致结果。
2数据与方法
2.1数据及描述性分析
本文对空气污染与日常死亡率之间的关系进行了研究,样本地点选择人口超过一千万的韩国首都首尔。因为很少的工业是位于这个大都市的,所以交通工具的尾气排放和空间加热被认为是空气污染的主要来源,像世界其他大城市如纽约和北京一样。在这项研究中,主要考虑的空气污染物是。
关于首尔死亡率数据来自于韩国国家统计局。死亡原因根据国际疾病分类第十版(ICD-10)进行编码,它提供了按照基本规则对死亡原因分类的基本数据。因意外或暴力造成的死亡从总死亡率中排除。韩国环境部提供了每小时平均浓度,这些数据取自27个首尔监测站。我们采用每天1小时最大浓度、的日平均浓度。日平均温度数据,相对湿度,空气压力的相关数据来自于首尔气象站。
本文使用的数据集包括了从1999年6月1日到2002年12月31日的浓度,温度,相对湿度,气压和每日死亡率。从图1中,我们可以观察到大多数变量有一个为期一年的周期模式。表1显示了空气污染和气象变量的描述统计量。根据“WHO关于关于颗粒物、臭氧、氮,二氧化碳和二氧化硫的空气质量指南2005“,日均值比准则50 ug/m3高。其他空气污染物指表均在在空气质量指南规定的安全范围内。表2是所以变量的Pearson相关系数,从表中可以看出空气污染物与气象变量之间高度相关。每日死亡率与气压、温度和高度相关。因此使用PCA消除变量的多重共线性时必须的。
图一变量分布图
表一 每日死亡率,气象变量和空气污染变量的描述性统计量
表2 Pearson相关系数
2.2方法
以前的研究表明关于空气污染物对死亡率平均暴露时间可能会超过24小时。因此,两个滞后的情况被认为是:并发曝光和两日平均曝光。虽然死亡率的季节变化在一定程度上反映了温度,但是一个额外的指标变量的季节性仍被纳入模型,以除去任何残留混杂因素的影响。像其他一些研究人员,我们假设春天的季节开始于3月份,5月份结束;夏日于六月开始,结束于8月;秋季是9月,10月和11月;冬季是12月,1月和2月。因为也有观察表明死亡率与工作日是有关的,所以我们也在回归模型中考虑工作日或周末指标变量,考虑从工作日到周末去交通量的变化。
不适当的控制混杂变量,如长期趋势,季节性和天气,一直都受到气污染的流行病学研究的批评。使用非参数平滑函数的GAM(Hastie和Tibshirani 1990)模型被允许引入到复杂多变的空气污染物,时间和天气之间关系的研究中,并且它们之间的关系不能用标准的线性模型或非线性模型来拟合。
此外,空气污染变量具有多重共线性。通常多重共线性的存在会使得最小二乘估计的方差膨胀。一个常用来消除多重共线性的方法是PCA,因为主成分分析法很容易理解和计算。PCA首先将原来的解释变量变为一些新的不相关的主成分,得出自变量对应的特征向量的协方差矩阵。然后将响应变量对这些主成分回归。对于数据中离群值的存在使得两阶段非常敏感。在这里我们提出了一个稳健主成分分析方法(Hubert等人,2005)使用MCD,它被定义为一个n中去掉h个观测数据的协方差矩阵最小行列式的子集。如果p表示样本变量的数目数据集,MCD估计需要的plt;h值,否则对任意的h个观测值的协方差矩阵的行列式子集等于零。
运用R软件对所有模型进行分析。我们使用的模型规格是半参数,结果如下:
其中是每日死亡率的预期;是空气污染物()的系数;是气象变量的平滑函数;是工作日和周末变量指标;是变量春季,夏季,秋季和冬季的指标。经过主成分分析后,上述方程等于
其中是主成分分析中的主成分;是变量的相关系数的特征值;是第个主成分的系数。
是回归系数,RR和95%的置信区间(95%CI)如下:
其中是标准错误。
在这个空气污染模型中,RR表示由于每单位空气污染物增加的预期死亡率变化率。如果,事件更可能发生在空气污染暴露组。
3结果
3.1基础模型
表3显示了为描述首尔日常的死亡率的变化而建立的一个基本模型的基本过程。Akaike信息准则(AIC)(Akaike,1970)是用来衡量GAM2适合。
表三 基础模型的半参数
3.2一种污染物模型
每一次添加一个空气污染物到基本模型来测试每种空气污染物的滞后效应。两中滞后(同时与两天平均曝光)每种空气污染物暴露的影响均得到较小的AIC。结果见表4。除臭氧无滞后效应,其他空气污染物更适合两日滞后平均效应模型。
表4 一种污染物模型
3.3主成分分析
在建立GAM模型之前,有MCD的经典的PCA和RPCA均被应用于空气污物变量与由一个污染物的GAM模型确定的滞后效果来消除污染物的多重共线性。变量间的距离用于检测是否有离散值(Hbert等人,2005)。定义
马氏距离为
其中是估计值,是变量矩阵估计。通常是算数平均值,样本协变量矩阵通常假设,离散值是距离观测值远于临界值。基于一般距离和马氏距离,距离图使得离散值与标准和比较稳健的经典结果可视化。
对空气污染物的数据,我们得到图2a与截止线。在图2a我们清楚的看到离散观察值。无论是经典的和强大的分析确定这些观察值第一象限中,因为它们超过水平线和垂直切断线。进一步我们可以观察到在第二象限的观察有一个大的稳健的距离但是只是马氏距离却很小。在传统方法中这些点不会被识别。图2b是两种方法的比较图。
图二 稳健分析图
因为MCD比传统的估计更强大,所以我们把PCA与MCD的协方差矩阵结合,我们也把PCA与传统协方差矩阵结合,并比较两种方法的结果。从主成分分析结果。PCA结果如图3a所示,我们可以发现通过使用我们提出的RPCA方法那些不规则的观测值(或离散值)可以有效地检测到(见图3b)。
图3
然后,我们把由PCA和RPCA得出的五个主成分带入GAM模型。在PCA-GAM和RPCA–GAM模型中,第五主成分均不显著,因此最终只有四大主成分被纳入到最后的模型。被选入最终模型的4个主成分的累计方差贡献率分别是:CPCA:
97.07%,而RPCA:96.66%。GAM、CPCA-GAM 和RPCA-GAM的系数估计比较如表5。CPCA–GAM和RPCA–GAM对空气污染物系数估计结果是一致的。因为PCA消除了变量间的多重共线性,所以PCA-GAM关于污染变量的估计结果比没有与PCA结合的GAM得到的结果更显著。
4讨论
CPCA-GAM和RPCA-GAM模型对空气污染物变量的结果是一致的。因此我们选取RPCA的结果进行讨论,因为RPCA方法对离散值的检测更有效。更多的是侦探点。RPCA-GAM结果分析图:(a)死亡率拟合值与实际值比较图4所示;(b)诊断图是图5。我们可以看到,RPCA-GAM可以对日死亡率进行合适拟合。残差图是随机无序的。正常的QQ图显示残差几乎是正态的,但有可能是有偏的。图4 拟合图
图5 模型检验图
我们的模型和结果表明二氧化硫和一氧化碳对日常死亡率的贡献最大。RR值为1.017692(95%置信区间,1.010368 -1.017769),CO的RR值为1.014076(95% 置信区间,1.010396–1.017769)。的影响次之,它的RR 值为1.010238(95%置信区间,1.003202 - 1.017323)。与其他空气污染物相比,对每日死亡率的影响是轻微的,它的RR值为1.001165(95% 置信区间,0.997356–1.004989)。的RR值比较性,也许是由于缺乏相对于日常死亡率更独立的变量。可以进一步对RPCA-GAM模型的灵敏度预测性能分析。
参考文献
Akaike H (1970) Statistical predictor identification. Ann Inst Stat Math 22:203–217.
Borja-Aburto VH, Loomis DP, Bangdiwala SI, Shy CM, andascon-Pacheco RA (1997) Ozone, suspended particulates, and daily mortality in Mexico City. Am J Epidemiol 145:258–268.
Daniels MJ, Dominici F, Samet JM, Zeger SL (2000) Estimating particulate matter-mortality dose-response curves and threshold levels: an analysis of daily time-series for the 20 largest US cities. Am J Epidemiol 152:397–406.
Dockery DW, Pope A III, Xu X, Spengler JD, Ware JH, Fay ME, Ferris BG, Speizer FE (1993) An association between air pollution and mortality in six U.S. cities. N Engl J Med 329:1753–1759.
Ha
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[31809],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 质量管理体系:确保全面质量管理的一个急需的工具外文翻译资料
- 识别MOBA游戏中具有预测性的胜利团战模式外文翻译资料
- 曲线拟合和最小二乘法来推断埃塞俄比亚COVID-19病例状态外文翻译资料
- 欧洲区域政策与欧洲区域社会经济多样性:多元分析外文翻译资料
- 公共企业资源规划公司估值的关键指标和关键驱动因素外文翻译资料
- 结构方程建模中模型评估的统一方法外文翻译资料
- Fisher线性判别函数的“朴素贝叶斯”,以及变量多于观测 值情况下的一些替代方法外文翻译资料
- 变量对于分类的贡献外文翻译资料
- 多时间尺度自相关和交互相关多元分位数投影变换偏差订正降尺度模型外文翻译资料
- 与可交换性结合时随机缺失和相关定义的注释外文翻译资料