英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
一种用于纽约电力市场实时价格预测的随机森林方法
Jie Mei, Dawei He, Ronald Harley and Thomas Habetler
School of Electrical and Computer Engineering
Georgia Institute of Technology
Atlanta, USA
Guannan Qu
Department of Electrical Engineering
Tsinghua University
Beijing, China
摘要:本文主要研究通过随机森林对纽约电力市场进行实时价格预测。在当今竞争激烈的电力市场中,准确的预测被认为是最实用的中标方式。随机森林法作为一种新引入的价格预测方法,与现有的价格预测方法相比,将提供一个价格概率分布,使用户能够估计其投标策略的风险,并使其结果有利于以后的工业应用。此外,该模型还可以根据最新的预测条件,即最新的气候、季节和市场情况,用新的观测数据更新随机森林参数。这种适应性避免了模型在不同于训练集的气候或经济条件下的失效。
关键词:随机森林、电价、NYISO、电力市场。
I.引言
在纽约独立系统运营商(NYISO)中,采用混合PoolCo/双边合同模型。在双边部分,客户可以选择与供应商签订双边合同,在这种情况下,客户选择以现货市场价格接受权力。日前电价由双方合同确定。而对于不选择以现货市场价格接受电力的客户,或者换句话说,不选择提前一天签订合同的客户,可以直接与供应商协商供电协议。在这种情况下,实时电价是确定的。PoolCo模式将服务于所有选择不签订双边合同的参与者(买方和卖方)。在这个模型中,电力卖家/买家向电力池提交竞价,获取他们愿意在市场上交易的电量。[1]在当今的电力市场上,这种投标和结算过程每5分钟重复一次。因此,在竞争激烈的电力市场中,短期价格预测对于消费者和生产者规划其业务和管理其价格风险是至关重要的。我们提出了一种新的以ARMA和ANN为基准的随机森林预测方法。
目前的方法可以分为以下几个方面。1)时间序列:ARIMA和GARH。2)机器学习:ANN, SVM
早在2003年Contreras[3]就发布了ARIMA的次日电价预测方法。它只是使用历史价格数据来训练ARIMA模型,然后发现次日价格总趋势。Contreras在加州电力市场测试了他的模型,MAPE的市场占有率约为15%。该模型每小时对电价进行预测,不适合当今竞争激烈的电力市场。
R. Garcia[4]在2005年提出了另一种基于广义自回归条件异方差(GARCH)的时间序列方法,该方法与ARMA方法非常相似。该模型在西班牙和加州放宽电力市场管制的情况下进行了测试,MAPE约为12.5%。
一年后的2006年,Amjady[5]提出了一种新的电力市场短期价格预测模糊神经网络。该模糊神经网络具有层间前馈结构和超立方训练机制。该方法预测了未来一天电力市场的每小时市场结算价格,并在西班牙电力市场进行了测试。MAPE平均约为11.4%。
Fan和Mao[6]提出了一种基于自组织映射(SOM)和支持向量机(SVM)两阶段混合网络的短期电价预测方法。在第一阶段中,采用SOM网络将输入数据集以无监督的方式聚类成多个子集。然后利用一组支持向量机对第二阶段每个子集的训练数据进行监督拟合。为了验证模型的有效性,对新英格兰电力市场的历史能源价格数据进行了训练和测试。MAPE是10.24%。
2009年,Mandal[7]提出了一种改进的ANN电价预测方法,增加了对相似日参数的敏感分析,提高了模型的准确性。改进后的模型在宾夕法尼亚州-新泽西州-马里兰州(PJM)电力市场进行了测试,MAPE约为11%。并以小时为单位进行了预测。
实时电价预测是近年来广泛讨论的课题。为了获得最优的竞价策略,电商和买家在这方面投入了大量的精力。然而,先前提出的方法有几个瓶颈。首先,几乎所有人都试图预测每30分钟或每小时的电价,而不是我们想要的每5分钟。其次,简单的价格预测并非如此与价格概率分布相比有帮助,可以帮助买卖双方估计其投标决策的风险。在价格概率分布中,他们可以知道特定电价的概率。第三,以前的预测模型是不可更新的。市场和气候正在变化,这意味着我们需要一个能够自动适应最新市场和气候条件的模型。
一种基于随机森林的自适应预测框架被提出。利用它的自举分布,可以为预测提供一个附加的置信区间。此外,随机森林通过更新随机森林参数和新的观测值来适应最新的预测条件,即最新的气候、季节和市场条件。这种适应性避免了模型在不同于训练集的气候或经济条件下的失效。
论文组织如下。第二部分简要总结了作者前期在实时价格预测方面的工作,总结了有待解决的问题。第三节介绍了随机森林。第四节将详细说明拟议的框架。第五部分对NYISO中提出的模型进行了测试,分析了模型的优点。第六部分总结了本文的贡献,并提出了今后的工作方向。
II. ARMA和ANN
A.进行ARMA预测方法
AR(p)的符号是指p阶的自回归模型。AR(p)模型写成(1),其中phi;1,hellip;,phi;p 参数,c是一个常数,随机变量εt 是白噪声。
MA(q)指的是滑动平均模型的q,它可以写成(2),其中theta;1,hellip;hellip;,theta;q 模型的参数,mu;是X的期望t,εt,εt-1,是白噪声误差项。[8]
ARMA (p, q)符号是指具有p个自回归项和q个滑动平均项的模型。(3)包含AR (p)和MA (q)模型。
本文提出了一个ARMA(144,30)模型。训练模型需要前30天的价格历史数据。
B.进行ANN预测方法
人工神经网络是一组相互连接的节点,类似于大脑中巨大的神经元网络。[9]我们提出两种ANN类型,一种用于周末(周六和周日)实时价格预测,另一种用于工作日(周一到周五)实时价格预测。在这两类神经网络中设置3个隐含层,第1层为8个神经元,第2层为6个,第3层为4个。输入向量为3小时前实时价格、1天前实时价格、1周前实时价格、1个月前实时价格、当前负载、日信息(周一至周日)
神经网络输出的是当前实时电价。8个过去类似的日子作为训练集和1个类似的日子作为验证集。
III.随机森林
- 随机森林概论
随机森林(RF)、分类与回归树(CART)的前身是L. Breman在1984年提出的。Breiman在1996年介绍了随机森林的另一项基本技术,称为Bagging。[10] RF是一种用于分类的集成学习方法。它基于两种技术,CART和Bagging。CART是一个树形结构的分类模型,它将关于一个项目的观察结果映射到关于该项目的类的结论。在图1中可以看到CART的一个简单的例子,在这个例子中,我们可以看到CART在每个节点中都是根据一个变量的分割来做出决策,并且一直向下直到到达一个离开节点。图1还对CART生长过程提供了一个提示:通过寻找最佳分割变量和最佳分割值,迭代地将每个节点分割为2个子节点,直到达到最小节点大小。CART的优势在于它可以很好地与数据相匹配。然而,在进行预测时,CART的准确性并不是很好。换句话说,CART的偏差较低,但方差较大。[11]
为了解决这个问题,RF通过引入Bagging法对CART进行了扩展。这意味着1)RF将多个CART放入从原始训练集重新采样的bootstrap集合中;2) RF通过拟合CART产生的预测模式进行预测。Bagging的介绍将降低CART的方差,同时保持较低的偏差。此外,RF采用随机节点优化的方法进一步降低CART方差。以上RF对CART的修改都避免了劣势,并证明取得了很好的表现。
图1.对CART的简单描述
B.随机森林生长与预测
下面给出了构造和预测RF的Breiman算法。简而言之,这个过程就是构造一组适合于引导采样数据集的CART。注意在步骤1-b-i和1-b-ii中,RF没有在所有p个变量中寻找最佳分割变量,而是将候选最佳分割变量限制为随机选取的m个变量。这就是我们上面提到的随机节点优化,它是减少CART方差的一个技巧。
C.随机森林的统计优点
除了低偏差和低方差外,RF还有其他几个可取的特性,总结如下:
- RF只需要3个参数。按照推荐值进行调整非常容易。
- RF可以在其生成过程中生成一个out-of-bag错误,一个很好的泛化错误估计,而其他模型通常需要多个训练过程,如交叉验证来生成这样的估计。
- RF在其生成过程中可以生成可变重要度指标,这些指标可以很好地估计变量相关性。
- RF对训练数据中的无关特征和异常值具有稳健性。
- RF作为树的结构,本质上很容易通过增加更多的“分支”来扩展自身以适应更多的数据。这就产生了CART在线学习算法,使CART成为一种很好的自适应机器学习模型。[12]
IV.建议的自适应预测框架
A.预处理和预测器定义
数据在传递到随机森林模型之前进行预处理。预处理包括两个步骤。
首先丢弃训练数据中的价格峰值,用附近的价格值对空值进行插值。其次,对训练数据进行平滑处理,忽略随机波动。
随机森林的预测因子由过去的价格值组成。
表I
随机森林的预测器
预测 |
描述 |
P(t-3) P(t-24) P(t-168) P(t-720) |
实时价格三个小时前,实时价格一天前,实时价格一周前,一个月前的实时价格 |
L(t) |
电流负荷 |
W(t) |
当前温度 |
D(t) |
每日指标(星期一至星期日) |
B.构造置信区间
在随机森林预测过程中,将预测设定为树木预测的平均值,即的平均值
考虑一组观察值Y,并假设CART T生成这些观察值。表示CART的后验分布参数theta;,theta;| Y。认为T是一个树的随机森林模型,其参数估计基于一组引导抽样从Y[13],这样估计参数近似后验分布树的参数theta;| Y。因此,树的随机森林近似后验分布参数theta;| Y。因此,树的预测反映了随机森林预测的后验分布。它们可以用来构造附加在预测上的置信区间。其中,首先利用核密度法估计预测的密度和分布,如(4)(5)所示;其次,根据置信水平alpha;和(5)的概率分布,得到相应的置信区间。
C.在线更新新的观察结果
该框架的这一部分旨在用新的观测数据更新随机森林,使随机森林能够适应最新的预测条件。引入一种在线学习算法,通过新的观测更新随机森林,如下图[14]所示。
该算法的核心思想总结如下。
-
- 在每棵树中,新的观测被重复处理k次,其中k为泊松分布。本实践旨在模拟批处理模式随机森林学习算法中的自举采样过程。
- 观察过程如下。首先,它从根节点向下传递到观测所属的叶节点。然后,将决定是否将叶节点拆分为两个子节点。判断的依据是叶节点的大小是否足够大,如果进行分割,训练误差的可能降低是否足够大。[15]
V.提出的模型验证
- 数据解释
模拟模型中使用的价格数据是从纽约独立系统运营商(NYISO)[8]下载的。历史价格数据每5分钟变化一次从6月2日星期日开始,接着是6月8日星期六,六月九日星期日,6月15日星期六,6月16日星期日,6月22日期六,6月23日星期日。纽约HUD VL地区的6月29日星期六区是用于训练模型的。我们预测了2013年6月30日星期日的实时价格。
B.模拟设置
模拟分为几个步骤。首先,利用历史数据对随机森林进行训练。然后在测试集上运行,记录精度并与其他基准模型进行比较。其次,研究模型的适应性。随机森林模型将在不同的市场、经济或气候场景中记录的数据集上进行测试,以研究随机森林模型如何适应不同的预测场景,在这种情况下,原始模型中的映射规则可能会失败。整个模拟过程以及所使用的所有数据集的信息汇总在表II中。试验中使用的模型参数如表III所示。
表II
模拟总结
模拟 |
模拟描述 |
使用数据集 |
训练集: 2013年6月2日,6月8日, 6月9日,6月15日, 6月16日,6月 22日, 6月23日6月29日 测试集: 2013年6月30日, |
||
测试的预测能力<!-- 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[20462],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 质量管理体系:确保全面质量管理的一个急需的工具外文翻译资料
- 识别MOBA游戏中具有预测性的胜利团战模式外文翻译资料
- 曲线拟合和最小二乘法来推断埃塞俄比亚COVID-19病例状态外文翻译资料
- 欧洲区域政策与欧洲区域社会经济多样性:多元分析外文翻译资料
- 公共企业资源规划公司估值的关键指标和关键驱动因素外文翻译资料
- 结构方程建模中模型评估的统一方法外文翻译资料
- Fisher线性判别函数的“朴素贝叶斯”,以及变量多于观测 值情况下的一些替代方法外文翻译资料
- 变量对于分类的贡献外文翻译资料
- 多时间尺度自相关和交互相关多元分位数投影变换偏差订正降尺度模型外文翻译资料
- 与可交换性结合时随机缺失和相关定义的注释外文翻译资料