非洲热带洛亚流行的二元二项式空间模型外文翻译资料

 2022-11-09 16:25:18

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


非洲热带洛亚流行的二元二项式空间模型

Ciprian M. CRAINICEANU, Peter J. DIGGLE, and Barry ROWLINGSON

我们提出了一种最先进的平滑应用,用于依赖的二元二项式空间数据,用于西非的Loa loa流行率测绘。该应用程序从调查仪器的非空间校准开始,继续进行空间模型构建和评估,最后使用强大的,经过测试的软件,供现场工作人员用于在线流行率图更新。从统计角度来看,我们解决了几个重要的方法论问题:构建足够复杂的空间模型来捕获数据结构但仍保持计算可用,减少了处理非常大的协变量数据集的计算负担,并设计了比较方法给定超出策略阈值的空间预测方法。

关键词:统计地质学;低秩;薄板样条

1.引言

罗阿丝虫病或粉虱是湿热带的地方性疾病,由罗阿丝虫引起,罗阿丝虫是一种被感染的Chrysops苍蝇叮咬传播给人类的丝虫寄生虫。 由于其对非洲盘尾丝虫病控制计划(APOC)的影响,该疾病的公共卫生重要性最近有所增加。 盘尾丝虫病或河盲症在许多热带地区也是地方性流行病,由于其对受感染人群的巨大影响,对公众健康具有重要意义。 盘尾丝虫病是由丝虫寄生虫Onchocerca volvulus引起的,它是由被感染的Sim蝇的叮咬传播的。 如果不治疗,盘尾丝虫病就会导致失明; 因此得名。

APOC于1995年启动,使用伊维菌素药物进行大规模治疗,该药物非常有效地消除感染者血液中的盘尾丝虫寄生虫(世界卫生组织1995; Seketeli 2002)。到2005年底,该方案已经管理了约5000万次治疗(Alleman,Twum-Danso和Thylefors 2006)。不幸的是,一些高度感染罗阿丝虫寄生虫的个体在用伊维菌素治疗时会发生严重的,偶尔致命的不良反应(Boussinesq等,1998)。 Boussinesq等人(2001)建立了罗阿丝虫病村级流行与村内高度受影响个体存在之间的密切关系。因此,APOC的政策是,在认为罗阿丝虫病患病率超过20%的地区对盘尾丝虫病进行大规模治疗之前,应采取预防措施,以便及时治疗任何对该药物有严重不良反应的病例。因此,需要估计潜在治疗区域中罗阿丝虫病流行率的空间分布,其中包括非洲中部的大部分地区。

传统上通过寄生虫学抽样估计患病率,即通过从选定的村庄社区采集血液样本并使用观察到的阳性结果比例作为当地患病率的估计值。 然而,在设想伊维菌素治疗的每个社区进行寄生虫采样是不可行的。

地质统计学建模提供了一种使用社区级结果来估计流行率的连续空间变化并将结果表示为“超越图”的方法,即当地流行率超过20%政策干预阈值的概率图。 继Diggle,Moyeed和Tawn(1998)之后,Thompson等人(2007)提出了以下用于描述村级寄生虫学数据的单变量二项式地质统计模型:

其中是由位置确定的村庄中采样的人中的阳性血液检测结果的数量,表示患病率,是植被的海拔和绿度的函数。 通过从卫星数据确定的归一化差异植被指数(NDVI)测量,是静态高斯过程。

需要收集额外的流行率数据以提高预测的准确性,但寄生虫取样费用昂贵且资源稀缺。因此,世界卫生组织(WHO)的研究人员开发了一种问卷调查工具RAPLOA,对于给定的总成本,该调查工具允许对比使用寄生虫采样可能的更多社区进行抽样(Takoungang等,2002)。为了验证RAPLOA方法,进行了调查,其中使用了两种确定患病率的方法。在本文中,我们为这类数据制定了一类二元地质统计模型, 并描述了使用随机系数薄板样条拟合这些模型的子类的方法,以表示中未观察到的空间过程的双变量对应物。考虑两种推论方法:通过马尔可夫链蒙特卡罗(MCMC)模拟实现贝叶斯预测推断,以及贝叶斯推断的计算快速近似。这种双重方法的基本原理是,当进行新的调查时,现场工作人员可能需要快速构建局部超越图,而在完成每项调查后,可以通过以下方式离线更新权威的区域范围的超标图:以最佳方式整合新数据。

第2节介绍了验证数据的非空间探索性分析,证明了RAPLOA仪器作为寄生虫取样的低成本替代方案的潜在价值。第3节描述了双变量地质统计模型的公式,它构成了我们提出的解决Loa loa映射问题的基础。第4节和第5节给出了使用贝叶斯预测推断和我们提出的计算快速近似得到的结果。第6节包含一个真实的模拟研究,比较贝叶斯预测推理和简单的频率近似。 第7节讨论了与软件实现和测试相关的实际问题,第8节给出了一些结论。

2 验证数据的探索性分析

验证数据涉及一系列调查,其具体目的是校准通过两种不同方法RAPLOA和寄生虫学抽样获得的社区级罗阿丝虫病流行率的估计值。在RAPLOA方法论中,如果调查中的每个人对以下所有三个问题回答“是”,则将其归类为阳性病例:您是否患过眼虫?它看起来像这张照片吗?它是否持续不到一周?在寄生虫取样中,调查中的每个人都提供了一个手指刺血样本; 将血液样品涂抹在载玻片上,阳性病例是血样含有10倍放大倍数的可见微丝蚴的阳性病例。 来自四个调查的数据可用,每个调查包括一个特定区域内的村庄样本。表1总结了可用的验证数据。

为了对通过寄生虫学和RAPLOA评估的流行率之间的校准关系初步评估,我们分析了如下数据。我们假设在应用经验对数变换后,四个调查中的每个调查中的数据可被视为来自双变量高斯分布的随机样本。然后,我们计算每个样本的样本均值向量和协方差矩阵,并导出每个拟合双变量高斯分布的主轴作为与样本协方差矩阵的两个特征值中较大者相关联的特征向量。最后,我们将主轴逆向转换为流行度量表。

对于每个数据,如果表示被调查人数,表示阳性数,则原始估计患病率为。 我们将患病率的经验对数定义为。图1显示了两种方法获得的结果之间的强烈,直接的关系。这种关系在经验对数量表上近似线性,具有相关性.83,两均值之间变化显著(RAPLOA为-.77,寄生虫学为-2.41),但方差近似相等(RAPLOA为2.53,寄生虫学为2.76)。四次调查的结果显示了相同的一般模式,刚果调查在拟合主轴的斜率较浅的情况下略微偏离其他三种。图1还显示了刚刚描述的校准关系。特别要注意的是,在流行量表上,从四次调查中获得的校准曲线在寄生虫学流行率的范围内非常一致,介于0和20%之间。这是关于在使用伊维菌素进行大规模治疗之前采取的预防措施的宣布政策的相关范围。

表1.四项校准调查中每项的位置和规模

调查

位置

村庄数量

对象/村庄

最小值

均值

最大值

0

喀麦隆

74

24

117.3

268

1

刚果(金) 西部

49

47

81.8

102

2

刚果(金)东部

50

46

81.8

96

3

刚果(布)

50

27

66.5

100

(a)

(b)

图1.基于RAPLOA和基于寄生虫学的四次调查患病率估计之间的校准关系。(a)经验对数量表的结果。(b)结果反向转变为普遍程度。四项调查通过绘图颜色区分为:黑色(喀麦隆); 红色(DRC West);蓝色(DRC East),绿色(刚果)。

3 二元地质统计建模

第2节中提出的结果表明,通过利用寄生虫学和RAPLOA流行率之间的关系而不是仅仅分析寄生虫学数据,双变量地质统计学分析可以很好地实现对寄生虫学流行的更精确的空间预测。更重要的是,双变量模型将允许我们纳入来自其他RAPLOA调查的数据,这些数据比其他寄生虫学调查更具成本效益,并且可以针对当前预测最不准确的区域。

我们最初使用相同的数据进行二元地质统计建模,就像我们用于探索性分析一样。 然而,我们发现调查2的数据位于其他三个调查的东边,但对空间模型没有帮助。此外,我们从喀麦隆获得了一个额外的数据集,改善了西赤道非洲的空间覆盖范围。因此,对于地质统计分析,我们使用来自调查0,1和3的校准数据以及新数据。 在东经3至16度,北纬5度至北纬15度划定的研究区域内共有275个位置(图4中的第4节和图4中的第5节)。

3.1双变量二项式地质统计模型

为了实现寄生虫病和RAPLOA流行率的预测映射,我们根据RAPLOA和寄生虫学拟合了以下二元二项式模型用于村级阳性适应症数量:

这里、为地理位置为x的村庄的寄生虫学和RAPLOA采样阳性适应症数,和表示相应的采样人数。根据空间流行过程和的条件,假设计数响应和服从独立的二项分布。在我们的应用中,罗阿丝寄生虫流行过程是感兴趣的焦点,我们的具体目标是以高概率识别的地理区域。

未观察到的过程和表示根据寄生虫学和RAPLOA调查的罗阿丝病流行率的空间变化的对数几率,并且通过(2)中的第五个等式描述的校准关系连接。当只有RAPLOA数据在新的地点可用时,这个等式起着重要的作用,我们希望利用这些数据更新我们的寄生虫流行超标图。关键假设是参数,和不依赖于位置。第2节中报告的探索性分析结果表明这种假设是合理的。

通过指定的空间模型在完成的模型在最后的方程(2),其中是总体的意思,而描述了平均值的空间变化,这可归因于在位置处观察到的协变量的影响。最后,是一个均值为0的静止过程,表示未由可用协变量解释的任意残余空间变化。请注意,我们的条件模型序列提供了寄生虫学和RAPLOA流行的联合模型。虽然这两个指标都可以被视为容易出错的标记,但世界卫生组织的政策是针对根据寄生虫学抽样估计的流行率而设计的,这被认为是黄金标准。出于这个原因,我们想明确建模寄生虫学流行率,这是我们统计推断的对象。

在我们的研究中,我们考虑了更简单的模型,包括固定和随机的分区域效应。 但是,分区域固定效应模型不能用于预测新地点的发病率,而具有三个或四个分区域效应的随机效应模型将无法在各地区取得优势。使用原始数据定义一个分区域相对容易,因为四个调查中的每一个都与特定的分区域相关联,但由于在现有分区域之间的抽样地点有了新的数据,问题就越来越多。因此,在动态数据采集框架中,将地理划分成子区域将成为越来越困难的问题。我们还考虑了更复杂的模型,包括随机主题效应和二项式变异的过度离散,但这些模型超出了本研究的范围。

我们的二元二项地质统计模型(2)由于数据结构复杂,必然具有复杂性。然而,复杂性是使用一系列单独的简单条件关系构建的,这使得模型易于理解。对于过程,标准方法是使用静态高斯过程,正如Thompson等人(2007)所做的那样。然而,由于有预测位置的数量非常大,这对于当前的应用程序来说是计算上的负担。第二个实际考虑是,随着新数据的出现,需要使模型适应到日益庞大的数据集。在下一节中,我们将描述一个基于低秩薄板样条的模型,它提供了一种计算效率高的方法来替代传统的高斯过程或满秩薄板样条,且不会严重损失灵活性。

3.2 满秩和低秩薄板样条平滑

广泛使用的地质统计学方法称为(普通)克里金插值法是一种线性平滑方法,形式上相当于高斯过程的最小均方预测(如Chiles和delfine 1999;Cressie 1993)。克里金平滑和薄板样条平滑(例如,Green和Silverman 1994)都是全秩平滑器,属于一般径向平滑器系列的一部分。Cressie(1993)和Nychka(2000)很好地讨论了这两种重要方法之间的正式联系。在克里金插值法中,未观测过程的协方差结构通常由几个标准参数族中的一个直接指定。薄板样条也可以被识别为高斯空间过程,尽管从这个角度来看,它们的协方差结构可能看起来不自然(例如,Wahba 1990;Nychka 2000)。

在这里,我们讨论二维的平滑,尽管拓展到二维以上很简单。在其最简单的形式中,二维平滑是将形式为

的模型拟合到假设是服从相互独立的的变量的数据。记以明确其二位特征,更平滑的薄板样条是以下优化问题的解决方案:

为了表征解,定义径向基函数,其中整数M控制相关函数的平滑性。用X表示矩阵第i行,表示第项为的矩阵。设为矩阵的第i行。那么(3)的解具有的形式,其中是以下二次最小化问题的解

对于平滑参数的任意固定值,利用薄板样条平滑的岭回归估计量的形式为

其中C是矩阵,,D是对角矩阵,对角元素为.

已经提出了许多标准用于从数据中选择平滑参数.这些包括交叉验证(CV)或广义CV(GCV)(Craven和Wahba 1979),Cp(Mallows 1973),Akaike信息(Akaike

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19283],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。