英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
第38届中国控制会议纪要
2019年7月27-30日,中国广州
基于动态加权和分位数回归神经网络的光伏发电概率预测
摘要:为了对电力系统进行有效的规划,光伏发电量的可靠预测是非常重要的。提出了一种基于动态加权法、K近邻法和分位数回归神经网络的太阳能发电概率预测方法。首先,采用一种新的动态加权方法对气象因子的最优权重进行动态调整。然后在最优加权欧氏距离度量方法的基础上,采用KNN算法更准确地找到相似的例子。最后,建立QRNN模型,得到不同分位数的太阳能输出概率分布。利用IEEE能源预测工作组的数据验证了该方法的有效性,实验结果表明该模型具有可靠、准确的预测能力。
关键词:光伏发电,概率预测,动态加权法,K近邻(KNN)算法,分位数回归神经网络(QRNN)
1 简介
太阳能是最重要的清洁可再生能源,广泛应用于发电领域。由于太阳能发电与天气的相关性强,其发电量具有很强的随机性和间歇性,对电力系统的规划提出了很大的挑战。为了实现电力系统的有效规划,太阳能发电的可靠预测是非常重要的[1-3]。
到目前为止,已有很多预测技术,如时间序列方法[4]、人工神经网络方法[5,6]、支持向量机方法[7,8]和马尔可夫链方法[9]等。由于光伏系统采集数据的复杂性和输出功率受外界环境的影响,单一的预测模型不能满足要求。因此,有学者提出了解决办法。在[10]中,考虑到季节、天气和气象等因素,作者选择了相似的试验日。采用云自适应粒子群算法对尖峰神经网络进行优化,提高了算法的收敛精度。结果表明,该模型比传统预测模型具有更高的预测精度。采用模糊c均值聚类算法对数据进行分割,然后对每个子集的整个预测数据集进行预测和合并,在一定程度上提高了模型的效率和准确性[11]。现有研究中对数据的分割或相似样本的选取都是基于传统的距离函数。不同气象因子与发电量的相关程度不同,外部环境也会不断变化,因此不同变量对相似样本选取的贡献也在变化。如果平均权重值或固定权重值仍然存在,则分类不合理,影响预测结果。为了提高样本选择的相似性和预测精度,提出了一种基于自适应动态权值调整方法的改进KNN算法。
另一方面,现有的预测方法大多是点预测法,只给出准确的发电量数值,不含预测的不确定性。由于太阳能的强随机性,点预测的误差不可避免。光伏发电预测的不确定性分析有助于保证电力系统规划的有效性。为了克服点预测的缺点,人们提出了不同的光伏发电概率预测技术[12,13],并根据概率预测的结果得到预测区间(PIs)。在文献[14]中,我们评估了预测误差概率分布的两个假设:拉普拉斯分布假设和高斯分布假设。该方法在点预测的基础上,通过对预测误差分布的分析,得到预测区间。
在分析相似时刻太阳能发电概率分布的基础上,提出了一种直接建立气象因子与太阳能发电概率密度函数映射关系的概率分布估计方法。该方法无需分析历史预报误差,即可同时得到点预报值和预报区间。提出了一种基于粒子群优化的自适应权值调整方法,在距离最短的条件下,动态调整气象因子的权值,使相似样本间的光伏输出功率误差最小。然后利用k近邻(KNN)算法寻找k近邻训练样本。最后,利用分位数回归神经网络(QRNN)模型得到不同的分位数,可以近似估计全概率分布。
2 距离函数权重对数据选择的影响分析
2.1 KNN算法
KNN算法是一种简单有效的数据挖掘方法。在提供新的预测点信息时,可以利用KNN算法从历史数据中选择其k近邻。一天中某一时刻的光伏发电量与气象条件相似时的历史数据有很强的相关性。为了实现KNN算法,我们需要一个距离度量来描述两个例子之间的相似性。本文采用加权欧氏距离,可用以下公式计算:
式中和分别是两组数据,而且每一组数据都有m种属性。实例的属性是不同的气象参数。 是其中的一种属性。
公式(1)可以看出,当我们从历史数据中选取相似的样本时,气象因子的权重对欧氏距离的取值和选取结果有很大的影响。我们可以利用光伏输出功率在相似样品之间的误差和参考值作为选择的标准。相似样品间光伏输出功率的误差可通过下式计算:
式中是某小时输出功率的预测值,是相同时间内的实际功率输出。是相似样本数。误差越小,选择性能越好。
2.2 不同权重的选择结果
我们使用了IEEE能源预测工作组提供的第1个太阳能发电场的数据集。光伏发电的价值通过第1个太阳能发电场的标称容量标准化[15,16]。
在这一部分中,我们分别使用三种客观赋权方法,变异系数法(方法1)、熵法(方法2)和路径分析法(方法3)来确定气象变量的权重。此外,我们还选取了6组随机权重,并在MATLAB R2014b中生成,与上述3种方法比较了相似样本间的光伏输出功率误差。本文将权重限制在0和1之间,并且不存在总权重为1的约束。6组随机权重的阶数从W1到W6不等。在6组随机权重中,W1表示气象变量的所有权重均为1。2012年6月1日0时的误差见表1。由表1可以看出,在同一时刻采用不同权重的样本选择误差是不同的,三种客观权重方法的选择性能均不优于6组随机权重。如表1所示,2012年6月1日任意时刻,第三组随机权重的样本选取误差均小于三种客观权重方法的样本选取误差。而且很难保证第三组随机权在任何时刻的误差小于其他5组随机权。上述结果出现在许多模拟实验中。当特征向量的维数较高时,没有一个恒定的权重可以保证选择的性能在任何时刻都是最佳的。通过对模拟试验结果的比较,发现在某一特定条件下,某组权重的误差较小,最优选择权重随预测时间的天气参数而变化。针对上述问题,本文提出了一种基于粒子群算法的自适应权值调整方法。
表1:不同时间不同权重样本选择误差比较
3 基于自适应调整权法和分位数回归神经网络的预测模型
3.1 基于粒子群算法的自适应权值调整方法
传统的KNN算法采用等权重的方法来寻找相似的样本,且过程是无监督的,导致选择性能较差。本文在KNN算法中加入了一个有监督的学习过程。为了减小相似样本间光伏输出功率的误差,在最短距离条件下动态调整气象因子权重,提高了选取相似样本的合理性。本文采用粒子群优化算法(PSO)对气象变量的权重进行动态调整。
当我们预测某时刻的输出功率时,可用的数据是该时刻的气象参数,输出功率的实际值是未知的。不可能直接计算目标函数(光伏输出功率在相似样本之间的误差)和最小化目标函数来调整权重。但样本与预测时间越相似,样本的最优权重越接近预测时间的最优权重。因此,我们可以计算出一小时内相似样本的最优权重,作为近似最优权重进行预测。本文将权重限制在0和1之间,并且不存在总权重为1的约束。
文[17]介绍了粒子群优化的基本原理。自适应调整权重的方法可以归结为以下步骤:
第一步:对于某个待预测的目标,初始化粒子群的大小和维数,其中粒子群的大小选择为30,粒子群的维数等于样本n(本文中n=13)的气象参数个数。是第i个粒子的权重向量,包含不同气象因子的权重。是第i个粒子的历史最优位置。是所有粒子的最优权重向量。
第二步:使用常量作为初始权重,选择与从历史数据中预测的小时相似的m个样本。
第三步:是m个样本中的一个,是的输出功率,。根据粒子的权重向量,从除样本外的其他数据中选择与相似的k个样本。类似样品间光伏输出功率的误差可以通过下式计算:
式中是与类似的第j个样本的输出功率。对m个样本的每个样本重复此过程。m个样本的平均误差可以通过下式计算:
公式(4)作为粒子群优化算法的自适应函数。
第四步:对粒子群的每个粒子重复步骤3,计算所有粒子的自适应函数值。
第五步:选择自适应函数值最小的粒子作为最优权值代入,,。
第六步:当迭代次数不超过最大迭代次数时,重复步骤3、4、5。否则停止迭代 and 是最佳数据。
3.2 估计概率密度的分位数回归神经网络方法
传统的线性分位数回归模型假设自变量是其他变量的线性函数。
式中 是 的第个分位数,。 是随tau;变化的回归系数向量。 误差矢量。第个分位数可用以下公式估算:
式中i=1,2, N,N是训练集样本数。BP神经网络是一种单隐层前馈网络,由于其能在不需要精确函数形式的情况下逼近任意函数,因此在光伏发电预测中得到了广泛的应用。本文利用Taylor提出的分位数回归人工神经网络来估计相似时刻光伏发电的分位数[18]。BP神经网络由输入层、隐层和输出层组成。结果模型有m个输入节点,n个隐藏节点和k个输出节点,可以写成:
式中 and 是非线性传递函数, 是输入层和隐藏层之间的权重, 是隐藏层和输出层之间的权重。结果模型可以写成:
第个分位数可以使用以下最小化来估计:
在公式(10)中, 和 是避免网络过度拟合的惩罚参数,可通过交叉验证21来确定。本文以气象因子为输入,以光伏发电的分位数为输出。该模型可以得到任意时刻发电量的不同分位数。预测过程如下:
第一步:基于待预报小时数的气象参数,采用提出的自适应调整权法计算距离函数气象参数的最优权。本文动态预测最优权重随时间变化。
第二步: 采用KNN算法从历史数据中获取与预测时间相似的5%样本作为训练数据。
第三步: 采用13-4-1结构建立分位数回归人工神经网络。 和 都是1。输入变量为气象参数,模型输出为任意时刻发电量的不同分位数。
第四步: 以待预测小时的气象参数作为模型的输入变量,可以得到待预测小时的光伏发电概率分布。然后取相似样本的平均值作为点预测的结果。预测间隔为1小时。
4 评价标准
由于该方法可以同时得到点预测值和预测区间,因此本文采用多指标评价预测性能。
- 均方根误差
式中 第i个预测值, 是第i个实际发电量。
- 分位数评分
其中是发电量的第a个预测分位数(a 1,2,hellip;99),p是发电量的实际值。预测的锐度与概率密度曲线的形状高度相关。峰值特征越明显,分位数得分越小。
3) 定义为第90分位数与第10分位数之差的中心概率区间是在特定置信水平下计算的区间,表示实际输出值落在该范围内的概率大于某个值。区间的上下限表示预测的风险程度。区间越窄,预测结果的不确定性越小,概率特性越好。
4) 预测区间覆盖概率
式中 是发电量的第i个实际值,是测试数据的数目。区间覆盖率描述了实际输出功率落在导出区间内的概率。值越大,模型的效果越好。
5 结果与讨论
本文采用IEEE能源预测工作组提供的第1太阳能发电厂数据集。历史数据的时间分辨率为1小时。为验证该方法,采用2012年6月30日下午21:00-9:00(次日)的数据进行测试,采用最近2个月动态更新的数据进行训练。该数据集包括来自欧洲中心天气预报(NWP)输出的12个气象变量。由于相似时数具有相似的太阳能发电量,因此应将待预测的太阳能发电量视为一个自变量。因此,共有13个自变量,自变量的描述如表2所示。
不同的气象变量有不同的尺度和尺度。为了保持机组的平衡,采用了规范化方法:
式中和 是样本的最大值和最小值。
表2:13个变量的说明
5.1 不同加权方法的样本选择误差比较
样本选择误差可由公式(2)计算。以2012年4-6月的数据为基础,采用10倍交叉验证方法验证了该算法(动态加权法)的有效性。结果如表3所示。结果表明,在不同的加权方法中,该方法的误差最小。为了进一步验证算法的有效性,将预测时间前两个月的数据作为历史数据。采用自适应权值调整的KNN算法对相似数据进行选择,选取6~8个月的数据作为测试数据进行平均误差比较。表4显示了不同加权方法中相似样本选择的误差。结果表明,在不同的样本选择方法中,该方法的样本选择误差最小。
5.2 不同加权方法对模型预测结果的比较
理想的概率分布可以描述样本分布的趋势。考虑到分布的尖锐性,尖峰细尾的分布最好。概率最大点越接近实际值,精度越高。从图1可以看出,该方法(AW QRNN)的预测分布曲线比其他方法具有更尖锐的峰值和更细的尾部,最大概率点更接近实际发电量。与等权法相比,该方法估计的分布的锐度更优。在图1(a)和图1(d)中,其它方法的分布曲线具有平峰多峰的特点,会破坏分布的锐度,导致较大的预测区间。另外,概率最大的点距离实际值较远。由于提高了样本选择的效果,避免了预测中的大误差。在图2中,阴影区域表示可以为电力系统的操作员提供更有用信息的预测间隔。预测区间越宽,预测结果的不确定性越大。
表3:不同加权方法10倍交叉验证结果
表4:不同加权方法相似样本选取误差比较
图1:不同方法的概率密度分布比较
X轴:光伏输出功率值
图2:预测间隔5天
图3:2012年6月16日-6月22日点预测结果
表5:基于QRNN的不同点预测方法的误差
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237294],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。