On the Weighting of Multimodel Ensembles in Seasonal and Short-Range Weather Forecasting
SOPHIE CASANOVA AND BODO AHRENS
Institute for Atmospheric and Environmental Sciences, Goethe-University Frankfurt, Frankfurt, Germany
(Manuscript received 1 December 2008, in final form 4 May 2009)
ABSTRACT
The performance of multimodel ensemble forecasting depends on the weights given to the different models of the ensemble in the postprocessing of the direct model forecasts. This paper compares the following different weighting methods with or without taking into account the single-model performance: equal weighting of models (EW), simple skill-based weighting (SW), using a simple model performance indicator, and weighting by Bayesian model averaging (BMA). These methods are tested for both short-range weather and seasonal temperature forecasts. The prototype seasonal multimodel ensemble is the Development of a European Multimodel Ensemble System for Seasonal-to-Interannual Prediction (DEMETER) system, with four different models and nine forecasts per model. The short-range multimodel prototype system is the European Meteorological Services (EUMETNET) Poor-Manrsquo;s Ensemble Prediction System (PEPS), with 14 models and one forecast per model. It is shown that despite the different forecast ranges and spatial scales, the impact of weighting is comparable for both forecast systems and is related to the same ensemble characteristics. In both cases the added value of ensemble forecasting over single-model forecasting increases considerably with the decreasing correlation of the modelsrsquo; forecast errors, with a relation depending only on the number of models. Also, in both cases a larger spread in model performance increases the added value of combining model forecasts using the performance-based SW or BMA weighting instead of EW. Finally, the more complex BMA weighting adds value over SW only if the best model performs better than the ensemble with EW weighting.
1. Introduction
The purpose of an ensemble prediction system (EPS) is to predict forecast probabilities of weather and climate events by the integration of an ensemble of numerical predictions (Lorenz 1965; Molteni et al. 1996; Ehrendorfer 1997; Palmer 2000). The ensemble members differ because of slightly different initial states, different model setups, or the application of different model systems. In the latter case the ensemble forecast is performed by a multimodel EPS (Atger 1999; Ebert
2001). The spread of the ensemble forecast provides a measure of the trustworthiness of the forecast. Additionally, the average forecast of multiple ensemble members often performs better than a forecast by any single member.
If a global EPS consists of multiple forecast members provided by a single-model, then the EPS predicts forecast probabilities of weather events by the integration of an ensemble of numerical weather predictions, which are initialized with slightly different states. These initial states are usually assumed to be equally realistic, and therefore all forecast members get the same weight in the determination of the forecast probability of an event (see the discussion in Katz and Ehrendorfer 2006). In the case of a limited-area EPS this can change. For example, the Consortium for Small-Scale Modeling (COSMO) Limited-Area EPS (LEPS; Marsigli et al. 2005) weights its members differently. These members are driven by a subset of the members of a global-scale EPS only. The subset of global-scale members is selected by a cluster analysis, and these members have different importance depending on the cluster sizes. This importance is inherited by the members of the limited-area EPS as weights in either the determination of forecast probabilities or the averaging of the members to a single deterministic mean forecast (Ahrens and Walser 2008; Jaun et al. 2008).
If an EPS consists of a set of forecasts by several different models, then the members are well discriminable because the various models have, in general, different forecast performance. It is then useful to apply different weights to the multimodel EPS members depending on the performance of the models in the preceding forecasts. For example, Krishnamurti et al. (1999) combine the deterministic forecasts of several models using different weights, which are obtained by means of a multilinear regression of the forecast anomalies during a training period. This yields a mean deterministic forecast.
The purpose of their application was seasonal ensemble forecasting with global models. A recent paper by Marrocu and Chessa (2008) compares different weighting methods of deterministic short-range forecasts by three limited-area models. For example, they show that Bayesian model averaging (BMA; Raftery et al. 2005; Sloughter et al. 2007) can improve the EPS forecasts of the raw equally weighted ensemble. Performing numerical experiments with toy models, Weigel et al. (2008) have shown that both equally and unequally weighted multimodel ensembles can perform better than the best model within the ensemble of models.
Here, we investigate different multimodel ensemble weighting methods at two different forecast scales. These scales are (i) the global seasonal forecast scale, and (ii) the limited-area short-range forecast scale. For these two scales, the different sources of forecast errors are most important. The forecast performance at the seasonal scale is largely dependent on the description of the physics in the model system. At the limited-area short-range scale the performance depends mainly on the forecast initialization of the limited-area models, and the quality of the driving global models and their initialization. It is the major goal of this paper to compare the impact of weighting in the postprocessing of multimodel ensembles with different forecast scales, and to understand the similarities and/or differe
剩余内容已隐藏,支付完成后下载完整资料
关于季节性和短期天气预报中多模式集合的权重研究
SOPHIE CASANOVA 和 BODO AHRENS
德国法兰克福歌德大学大气与环境科学研究所
(2008年12月1日收到的稿件,截至2009年5月4日)
摘要
多模型集合预报的性能取决于在直接模型预报的后处理中给予集合中不同模式的权重。本文比较以下不同的加权方法是否有考虑单一模式的性能:均等加权(EW),简单的基于性能的加权(SW),使用简单的模式性能指标和贝叶斯模型平均加权(BMA)。这些方法对短期天气和季节温度预报进行测试。原型的季节多模式集合是欧洲多模式合成系统的季节到年际预测(DEMETER)系统的发展,有四个不同的模型,每个模型有九个预测结果。短期多模式原型系统是欧洲气象服务(EUMETNET)的综合预测系统(PEPS),具有14个模型,每个模型有一个预测结果。结果表明,尽管预测范围和空间尺度不同,但是权重的影响对于两个预报系统是可比较的,并且与相同的集合特征相关。在这两种情况下,集合预报与单模式预报的相加值随模式预报误差相关性的降低而显著增加,其关系只取决于模式的数量。此外,在这两种情况下,模式性能的更大的扩展增加了使用基于性能的SW或BMA加权而不是EW的集合模式预报的附加值。最后,如果最佳模式表现得比EW加权的集合更好,更复杂的BMA加权会增加SW上的权重值。
1.引言
集合预报系统(EPS)的目的是通过整合数值预测的整体来预测天气和气候事件的预测概率(Lorenz,1965; Molteni等人,1996; Ehrendorfer,1997; Palmer,2000)。集合成员不同,因为初始状态略有不同,模型设置不同或模型系统的应用不同。在后一种情况下,综合预报由多模式EPS(Atger,1999; Ebert,2001)执行。集合预报的推广提供了对预测的可信度的度量。此外,多个集合成员的平均预测通常比任何单个成员的预测表现更好。
如果全球EPS由单个模型提供的多个预报成员组成,则EPS通过整合数值天气预报的集合来预测天气事件的预测概率,其中数值天气预报以略微不同的状态初始化。这些初始状态通常被假定为同样的现实,因此所有预测成员在确定事件的预测概率时获得相同的权重(参见Katz和Ehrendorfer,2006年的讨论)。在有限区域EPS的情况下,这可以改变。例如,小规模建模联盟(COSMO)有限区域EPS(LEPS; Marsigli等人,2005)对其成员的权重不同。这些成员由仅全球规模EPS的成员的子集驱动。通过聚类分析来选择全局尺度成员的子集,并且这些成员根据聚类尺寸而具有不同的重要性。这个重要性被有限区域EPS的成员作为在确定预测概率或将成员平均到单个确定性平均预测中的权重(Ahrens和Walser,2008; Jaun等人,2008)。
如果EPS由若干不同模型的一组预测组成,则成员是可区分的,因为各种模型通常具有不同的预测性能。 然后,根据先前预测中的模型的性能,给多模式EPS成员赋予不同的权重是有用的。例如,Krishnamurti等人(1999)结合了使用不同权重的若干模型的确定性预测,其通过训练期间的预测异常的多线性回归获得。这产生平均确定性预测。
它们的应用目的是用全球模型进行季节性集合预报。Marrocu和Chessa(2008)最近的一篇论文比较了三个有限面积模型的确定性短期预报的不同加权方法。例如,他们表明贝叶斯模型平均(BMA; Raftery等人,2005;Sloughter等人,2007)可以提高原始均匀加权集合的EPS预测。Weigel等人(2008)使用玩具模型进行数值实验,结果表明,相等和不等加权的多模态集合的性能优于模型集合中的最佳模型。
在这里,我们调查在两个不同的预测尺度不同的多模式集合加权方法。这些量表是(i)全球季节性预报量表,和(ii)有限面积短期预报量表。对于这两个尺度,预测误差的不同来源是最重要的。季节性尺度的预测性能在很大程度上取决于模型系统中物理的描述。在有限区域短期尺度下,性能主要取决于有限区域模型的预测初始化,以及驱动全球模型的质量及其初始化。本文的主要目标是比较在不同预测尺度的多模型集合的后处理中权重的影响,以及理解这些影响之间的相似性和/或差异。为此,我们在集合预测后处理中实施了三种加权方法:模型的均等加权(EW),简单的基于技能的加权(SW),使用简单的模型性能指标和通过BMA的加权。这些方法会在下文更详细地描述。
作为一个全球季节性预报系统的原型,我们使用欧洲多模式集合系统的开发的季节到年际预测(DEMETER)项目(Palmer等人,2004)的后报。我们可以用这个产品使用33年的后报;偏好于“基于气候变化的综合预测及其影响(ENSEMBLES)”项目(信息网址为http://www.ensembles-eu.org)的新产品,该产品目前有10年的可用季节性预测。作为短期产品,我们使用由短期数值天气预报(SRNWP)的EPS(PEPS;参见例如Heizenreder等人,2006)项目收集和传送的多模式预报。它通过来自20多个欧洲国家气象服务的有限区域模型收集运行预报。
通常,由EPS提供的集合预报是概率性地解释和评估(Katz和Ehrendorfer,2006; Ahrens和Walser,2008),或者成员被用作影响模型的输入(Jaun等人2008)。集合平均确定性预测更容易解释。这里我们将关注加权对整体平均预报的性能的影响。这简化了讨论,并允许我们在集合预报的评估中使用确定性分数。因此,本文不研究加权对总体的概率校准的影响。
本文的组织结构如下:第2节描述了所使用的集合方法,加权方法,性能评价方法和用于加权方法和评价的实验的观测数据。第3和4节分别给出不同加权集合的全球和局部性能的概要。第5节讨论不同加权方法的影响。第6节得出结论。
2.数据和方法
本节介绍两种综合预报系统,预测后处理和评估的数据,以及后处理和评估中应用的方法。
a.集合预报产品
所考虑的第一个综合预报产品来自于根据欧盟第五框架环境计划成立的DEMETER项目(Palmer等,2004)。它为不同时期(2001年结束)合并的七个全球海气耦合模型产生了一个季节超集合(即,每个模型预测系统具有多个集合成员的多模型)。后报在具有2.5°水平网格间距的空间网格上传送。每个模型被整合6个月和9次,具有不同的初始条件(每个模型产生9个预测)。项目及其主要结果的完整描述可以在DEMETER网站上找到(网址为http://www.ecmwf.int/research/demeter)。在本文中,我们仅显示春季的2米温度后报的结果(3月-5月;后两次在2月初初始化)。其他季节的预测显示类似的结果。为了具有足够长的时期(1969-2001)来对SW和BMA加权方法的预测和实验的偏差校正,我们不得不限制自下列四个模型:英国气象局(UKMO;英国),国家中心气象研究所(CNRM;法国),马克斯普朗克气象研究所(MPI;德国)和欧洲中期天气预报中心(ECMWF;英国)。正如在引言中所讨论的,使用相同模型的九个预测不能被区分,因此不能赋予不相等的权重。此外,本文不考虑可能由集合预报提供的概率信息。因此,我们考虑四个确定性预测,每个都由9个单模型集合成员的平均值构造。我们将这个系统称为DEMETER-36。
第二个预测产品由SRNWP-PEPS(Heizenreder等人,2006)项目提供。它收集来自20多个欧洲国家气象服务的操作预报,以构建高分辨率短距离区域模型的多模态集合预测系统[即区域模型的不同实现(参见Heizenreder等人,2006),在欧洲气象服务网络(EUMETNET;参见网址:http://srnwp.met.hu)中组织的四个区域示范联盟,即国际适应动力发展国际组织(ALADIN),COSMO,高分辨率有限区域模型(HIRLAM)和UKMO]。模型设置的网格长度在7到22公里之间,并应用不同的模型域,初始化和耦合模型。所有预测均内插到水平网格间距为7公里的预测网格上。PEPS的可能的集合大小取决于感兴趣的区域。对于这项研究,我们限制在每天最大温度预报初始化为0000 UTC,最大交付时间为30小时,从14个模型实施,较好地覆盖了德国,时间段是2006年11月至2008年2月。我们从数据集中删除了一个或多个缺失模型的所有天数,我们最终得到了约300个预测天数。这允许我们处理同质集合;我们称之为PEPS-14。
DEMETER-36和PEPS-14的不同集合大小和类型使加权方法在后处理中的影响比较的目标复杂化。 因此,在下面的讨论中,重点将是两个衍生的集合产品的比较。 第一个名为DEMETER-4,是通过为每个预测事件的每个模型从9个中随机选择一个预测成员来构建的。因此,DEMETER-4的预测包括四个模型中的每一个的实现。 第二个导出的产品,名为PEPS-4,是通过对PEPS-14进行子采样而没有替换而产生的,产生了四个模型的预测集合。 在下面我们展示预测实验,其中50个随机子样本(在1001个可能性中)被选择并在加权效应的讨论中考虑。
b.观测数据参考
对于预报的后处理和评估,重要的是有足够的观测数据。在DEMETER的情况下,40年的ECMWF再分析(ERA-40; Uppala等人,2005)的季节平均2米温度被作为DEMETER产品在2.5°times;2.5°的空间网格的参考。总共有个网格点和33年的评价数据,因此总评价样本包含约个事件。
在PEPS后处理和评估的情况下,我们使用德国气象服务的357个操作气象站的日最高温度观测值。 将观测数据与PEPS的最近网格单元中的预测值进行比较。 由于缺少观测和模式,可用于评估的天数约为300天(取决于站点)。因此,可用于评估的事件的数量约为。
c.后期处理
这里应用的后处理包括两个步骤:首先,应用单模式预测的偏差校正;第二,在评估中考虑确定性平均集合预报之前对模式预测进行加权。偏差校正和加权基于从实验期中的预测和观察参考的比较产生的经验信息。
对于DEMETER,有33个连续春季季节的季节预报,可用于这里讨论的预测实验。使用一次性交叉验证:应用当前季节进行验证,并且将剩余的32个季节用作后处理中的实验数据。 因此,验证样本是每个网格点的33个后处理预测。对于PEPS,当前预测的训练周期由前35个预测天组成,由于数据中的差距,可能不连续。因此,每个站可提供约265个后处理PEPS预报。
1)偏差校正
后处理直接模式输出中最重要的步骤是模式平均偏差的校正。对于DEMETER,对于多模式系综中的每个模型,针对每个网格点估计偏差。这是实验期中季节性预报和ERA-40数据的平均差。偏差是空间可变的,但是每个网格点,偏差的标准误差通常比偏差估计小约3倍,尽管是用的DEMETER的实验期中的季节性预测的小样本。
对于PEPS,使用来自基于前35天的实验数据集的预测和观测数据,针对当前预测日计算偏差。这里,偏差随空间和时间变化。然而,使用在过去35天计算的局部偏差校正是容易实现的,并且考虑当前季节和天气情况。偏差估计存在不确定性,但它们不限制以下关于不同加权方案的相对影响的讨论。
2)多模式模块的称量
对于多模态集合PEPS-14,PEPS-4,DEMETER-36和DEMETER-4,我们测试了三种集合加权方法。第一种方法是EW。在这种方法中,每个模型在多模式预测中获得相同的权重;具有指数m的模型获得权重,其中M是模型的数量。这是单模型系综加权中最常见的方法(Katz和Ehrendorfer,2006)。在EW中,忽略了关于模型性能的任何信息。
作为第二种方法,考虑模型性能的一种简单的基于技能的加权方法应用于DEMETER的网格点方法和PEPS的站方法。该SW方法使用实验期间的模型预测的均方误差的倒数作为加权因子(在通过权重的和进行归一化之后)。这种方法忽略了模型在整体中的性能的任何相互依赖性。已经尝试应用平均绝对误差作为替代的简单性能测量,并且不改变以下讨论和结论。
第三种方法是BMA。BMA已被应用于Raftery等(2005),Sloughter 等(2007),Wilson等(2007)和Marrocu和Chessa(2008)等人的概率天气预报中。在作者的全部知识范围内,BMA方法首次应用于季节温度预报。 BMA是后处理预测集合的统计方法,用来创建针对天气相关量的预测概率密度函数。预测概率密度函数被估计为以个体偏差校正的预测为中心的单个密度函数的加权平均。这里,假设温度预测通过正态分布良好近似。进一步假定所有模型的误差方差近似相等。然后,权重和公共方差可以通过最大似然过程来确定【使用期望最大化算法,如Raftery等人(2005)】,那适用于每个预测的实验期。对于DEMETER,每个网格点应用BMA,对于PEPS,每个站应用BMA。这里,只有BMA权重对于确定性平均集合预测的计算是必要的。BMA方法是比SW的加权更好的模型。然而,它还涉及模型间关系。如果两个模型显示相对较高的预测误差相关性,则一个模型被减量以减少系综中的冗余信息。这产生过度拟合实验数据的风险大于SW [在Hamill(2007)中作为对Wilma等人(2007)的BMA的应用的响应所讨论的。]。
d.评价分数
在本文中,为了使事情尽可能简单,只有加权集合预报的手段被评估和讨论。因此,不执行具有分数的概率评估,如Brier分数。我们选择了众所周知且容易解释的均方误差(MSE)分数
(
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26762],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 气候变化对径流影响研究中多个gcm、统计降尺度和水文模型的比较与评价外文翻译资料
- 蒙古高原与青藏高原对北太平洋西风急流的影响外文翻译资料
- 用RAMS-CMAQ模拟北京气溶胶对大气能见度的影响外文翻译资料
- 春季江淮流域多尺度气旋活动及其与降水异常的关系外文翻译资料
- 中国东部地区春季1壤湿度和夏季降水关系的统计分析外文翻译资料
- 长江流域降水变率的AMIP GCM模拟外文翻译资料
- 中国水汽变化及气溶胶的影响外文翻译资料
- 大西洋盆地及其相邻大陆地区气溶胶的CALIPSO衍生三维结构外文翻译资料
- 基于雨量计观测数据的登陆中国的热带气旋的降水日变化外文翻译资料
- 基于CloudSat数据的热带云属现象描述外文翻译资料