基于相似分组指导神经网络建模的船舶交通流预测外文翻译资料

 2022-07-31 21:12:32

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


基于相似分组指导神经网络建模的船舶交通流预测

概要:准确可靠的时间序列预测在海运业的经济投资、运输规划、港口规划设计等方面发挥着至关重要的作用,而时间序列的动态增长具有复杂、非线性和非平稳的特点。为了保证高质量的预测性能,我们建议首先采用经验模态分解(EMD)和集成EMD(EEMD)方法将原始时间序列分解为高、低频段组件。利用传统的神经网络(NN)方法可以很容易地直接预测低频分量。但由于高频分量具有较差的数学规律性,使得高频分量的预测更加困难。本研究利用高频固有的自相似性组件,将这些组件将分成几个连续的小(重叠)片段,然后选择相似度高的分组片段,形成更适合传统神经网络方法的训练数据集。这种重组策略有助于提取高频元件。通过对预测的高频分量和低频分量进行积分,得到最终的预测结果。我们提出的三步预测框架优越性体现在时间序列分解和相似片段分组。通过对港口货物吞吐量和船舶流量的实验,证明了其在预测精度和鲁棒性方面的优越性

索引词汇:数据预测、神经网络、相似性分组、经验模式分解(EMD),动态时间规整(DTW)

一、介绍

A.相关准备工作

船舶交通流量的动态增长(如港口货物吞吐量和船舶交通流量)有时具有预先的复杂性、非线性和非平稳特性。他们可靠而准确的预测在海运业中起着重要的作用,如经济投资,交通规划、港口规划设计等。文献[1]-[4]致力于有效预测不同类型的时间序列。然而,利用传统的数学方法,如模糊理论[5]、[6]、[7]、卡尔曼滤波,贝叶斯模型[8],混合框架[9],自回归综合移动平均(ARIMA)[10]及其扩展等,对这种非平稳时间序列进行建模和预测,通常还是比较困难的。

从机器学习的角度来看,有几种技术介绍了时间序列预测的任务。最常用的两种方法当然是传统的神经网络(NN)[11],[12]和最新的深度学习(DL)[13] ,[14]。它们都是有监督的学习方法,它们经过训练以学习几个输入特征和输出值之间的映射函数,该映射函数由要预测的目标表示。最近的证据表明,DL方法一直是时间序列预测方面的前景乐观的的工具,比如城市交通流量[2],[15],晶圆批次的循环时间[16],然而,风速[17]和金融市场[18]等,基于DL的预测性能高度依赖于训练数据集的容量和多样性。如果训练数据集不包括待预测时间序列中存在的相似特征,则很难产生满意的结果。计算复杂度高限制了基于DL的预测方法在实际应用。因此,为了使预测更容易更灵活,本文将主要研究神经网络及其应用非平稳时间序列预测的扩展。

神经网络具有学习不同变量间潜在复杂关系的能力。传统的nn方法,如小波神经网络(WNN)[19]、模糊神经网络(FNN)[20]、Elman神经网络(ENN)[3]、bp神经网络(BPNN)[21]、广义回归神经网络(GRNN)[22]等,在过去的几十年中引起了广泛的关注,海洋时间序列的发展往往受到几个复杂的影响。由于神经网络方法有其自身的缺点,因此很难产生符合实际的预测结果。例如,在训练过程中,BPNN可能会陷入局部极小问题;GRNN的问题则是计算时间过高。

为了进一步提高预测性能,将经验模式分解(EMD)和神经网络相结合,本文提出了一种两步预测框架[23]、[24],如EMD WNN[25]、EMD FNN[26]、EMD ENN[27]、EMD BPNN[28]、EMD GRNN[29]等组合形式,该预测框架在时间序列预测中表现良好,造成这种现象的原因即EMD可以将原始的非平稳时间序列分解成一系列相关的、近似周期的分量,这些分量接受了Hilbert变换。每个与内禀模态函数(IMF)相关的分量都能揭示时间序列的隐藏模式和趋势。特别是频率最低的中频分量,通常会记录原始时间序列的趋势或平均值[30]。因此,这种分解策略能够有效地协助未开发的预测方法。众所周知,传统的EMD容易出现模式混合问题。为了进一步提高数据分解性能,Wu和Huang[31]于2009年提出了一种新的噪声辅助方法,称为集成EMD(EEMD)。因此,EEMD WNN[32],EEMD ENN[33],EEMD BPNN[34],[35],EEMD GRNN[36]在时间序列数据预测领域也得到了显著的改善。对于传统的基于EMD和EEMD的预测方法,分别使用传统的神经网络方法(如WNN、FNN、e NN、BPNN和GRNN)预判高频和低频分量。最后的结果是通过对预测的高频和低频分量进行聚合得到的。此外,EMD和EEMD最近与新开发的深度学习方法[37]-[39]结合起来,以进一步提高预测结果

B.目的和贡献

一般认为,原始时间序列是由多个对应于时间序列不同特征的高、低频分量共同组成的,用WNN[32]、FNN[26]、ENN[27]、BPNN[28]、[35]可以直接准确地预测出具有稳定变化的低频分量,以及流行的两步预测框架[23],[24]中的GRNN[36]。然而,由于高频分量具有不明显的数学规律性,使得高频分量的预测变得困难。基于神经网络的预测结果在实际应用中可能导致非最优结果。我们发现,高频分量中的自相似性可以实现稳健和准确的预测。在我们提出的三步预测框架中,高频分量首先被分割成几个连续的小(重叠)分段。使用动态时间扭曲(DTW)方法可以有效地测量任意两个不同段之间的几何相似性[40]。与标准化的基于欧氏距离(SED)的相似性度量[41]相比,DTW能够找到形状相似的点,从而改进不同线段之间的相似性度量。然后选择具有高DTW相似性的分组段,形成传统神经网络方法的训练数据集。它能增强高频分量的预测能力。将所有预测的成分组合在一起,就是我们提出的方法的最终预测。

总之,鉴于当前最新的研究工作,我们的贡献主要由以下三个方面组成:

  1. 为海运行业的非平稳时间序列预测,提出了一种统一的三步预测框架(EMD DTW NN和EEMD DTW EE)。基于EMD或EEMD的属性分解和基于DTW的相似性群方法具有良好的预测性能。
  2. 将非平稳时间序列分解为高频分量和低频分量。为了提高预测精度,考虑了高频分量内部固有的自相似性,采用传统的神经网络方法直接生成低频分量的预测。
  3. 通过对港口货物吞吐量和船舶交通流量方面的综合实验,证明了所提出的三步预测框架在预测精度和鲁棒性方面的优越性。

我们提出的预测方法的主要优点是充分利用了基于EMD或EEMD的属性分解和基于DTW的相似性分组,从而有效地提高了预测精度和鲁棒性。

  1. 组成

本文的其余部分安排如下。第二节提出了基于分解的预测框架。第三节是关于港口货物吞吐量和船舶交通流量预测的若干数值实验。本文在第四节总结了我们的主要贡献。

二、相似分组指导神经网络模型

本节将详细说明我们提出的三步预测框架,如图1所示。在第一步中,可以采用EMD或EEMD将原始的非平稳时间序列分解为高低频分量。在第二步中,利用传统的神经网络方法直接对低频分量进行有效的预测,而高频分量首先被分割成若干连续的(重叠)分段。然后将具有高DTW相似性的多个片段进行分组,形成新的训练数据集,用于传统的神经网络方法,以提高预测精度。最后,将预测的高频分量和低频分量结合起来,形成最终的预测结果。

  1. 基于EMD的时间序列分解

在文献[42]中,已经将EMD用于将非平稳信号(即时间序列)分解成少量的不同缩放数据序列。 每个序列都可以表示为本征模式函数(IMF),从数学角度来看,它是独立的并且几乎是周期性的。 DTW的实施必须满足以下两个条件

  1. 整个信号中的过零点和极值点(局部极大值和局部极小值)的数量应至少相等或只相差一个。
  2. 在信号的任何一点上,由局部极小值和局部极大值表示的上下包络的平均值应等于零。

EMD本质上高度依赖于原始信号的局部特征,如局部极小值、局部极大值和过零点。原始非平稳信号的IMFs分解通常采用一种称为筛选算法的迭代过程。特别是,它计算了从细到粗的各个尺度的IMFs。关于EMD的更多细节,我们请感兴趣的读者参阅[43]及其参考文献。设X(t)表示原非平稳时间序列,其可分解为和有限个imf如下

(1)

当1le;tle;t时,N为IMF总数,为第i个IMF,为表示原始数据平均趋势的残差信号。实际上,也可以看作IMF,并表示为。因此,式(1)可以重写为,在这个分解中,第一个IMF与中波动最快的部分有关,而最后一个IMF则对应于波动最慢的部分。

  1. 基于EEMD的时间序列分解

传统的EMD,在第II-A节中介绍过,很容易受到模式混合问题的困扰。该问题容易导致时频分布严重混叠,降低分解精度。为了提高EMD的分解性能,Wu和Huang[31]提出了一种新的噪声辅助方法EEMD,它与EMD中的迭代筛选过程相同,通过传统的EMD方法将时间序列数据重复分解为不同的imf。特别地,EEMD中的IMF分量被定义为路径均值的集合。每个轨迹由时间序列数据的分解结果加上有限振幅的均匀分布白噪声组成。理论和实际结果都表明,在EMD方法中加入噪声有助于数据分析[44]。EEMD的详细步骤如下所示

  1. 在原始时间序列数据中加入一个均匀分布的白噪声序列。

2) 通过第II-A节所示的EMD,将加入白噪声的时间序列数据分解为不同的IMF。

3) 用不同的白噪声迭代重复步骤(1)和(2),得到相应的IMF分量,集合数与重复过程的个数有关。

4) 计算集成IMFs的平均值作为最终分解结果。

对于基于EMD和EEMD的时间序列分解,IMFs可以看作是高频和低频分量的组合。在实际应用中,利用传统的神经网络方法可以很容易地直接预测低频分量。相比之下,由于高频分量具有弱的数学规律性,很难对其进行预测

  1. 基于DTW的相似分组

DTW是一种基于动态规划方法的测量时间序列间距离(或相似性)的有效方法。它被广泛应用于语音识别、数据聚类、特征提取等领域,两个时间序列之间的相似性与几何距离成反比。DTW算法的基本原理是通过计算两个时间序列之间的最小距离来比较两个时间序列并测量它们的相似性。

设Y={y1,y2。,ym}和Z={z1,z2。,zn}表示两个时间序列。在计算距离之前,我们首先创建一个mtimes;n分片矩阵,其中(ith,jth)元素表示两点yi和zj之间的距离d(yi,zj)。为了增强计算的鲁棒性,d(yi,zj)对应于加权欧氏距离。因此,基于DTW的相似度对噪声或异常值不敏感。如图1所示,在我们的工作中很容易得到m=n。这两个序列Y和Z之间的最佳匹配对应于将一个序列与另一个序列对齐的最短距离路径。因此,最优翘曲面片可以由此计算出:

图1:提出的三步预测框架EMD DTW NN和EEMD DTW NN的流程图。为了简化,原来的时间序列只分解为两个部分。在实际应用中,为了保证预测的高精度,需要生成两个以上的分量。

(2)

最小累计距离由此得出:

(3)

为了更好地理解,图2示出了DTW和欧几里德距离之间的差异的直观图示。与广泛使用的欧几里德距离相比,DTW在提取具有相似几何形状的点方面表现更好,从而提高了距离(相似性)度量的准确性[45]。值得注意的是,高频成分(即imf)因为具有高波动性的特点而难以预测,本文将高频imf划分为一系列重叠段。利用DTW距离测量的高相似度段被合并到同一组中。为了提高神经网络的预测性能,利用聚类形成更适合传统神经网络的训练数据集。

  1. 预测框架的三项步骤

非平稳时间序列预测的三步框架如图1所示。II-A-II-C部分介绍了EMD、EEMD和DTW的基本原理。EMD DTW NN和EEMD DTW NN的详细计算步骤如下。

  1. 步骤1:分解

EMD或EEMD方法首先将原非平稳时间序列X分解为高频IMFs 和低频IMFs ,P Q=N 1,虽然可以提取X中的主要结构和特征,但由于其弱的数学正则性,预测仍然困难。相比之下,预测变得更容易,因为它表明了长周期特性。注意,上一个IMF通常代表X的基本趋势及其高精度预测是可以保证的。为了简单起见,在本文的其余部分,我们倾向于分别采用和代替和。

图2:DTW和欧几里德距离之间差异的直观说明。从左到右:(a)显示用于测量距离(相似性)的两个时间序列之间基于DTW的对齐;(b)分别显示通过计算DTW和euclide距离生成的弯曲路径和;(c)显示使用euclide距离的两个时间序列之间的匹配。可以发现,DTW在寻找具有相似几何形状的点以提高距离(相似性)度量的准确性方面表现得更好[45]。

图3:本文采用的5种神经网络方法的结构图。WNN:小波神经网络,ENN:Elman神经网络,FNN:模糊神经网络,BPNN:反向传播神经网络,GRNN:广义回归神经网络。

  1. 第2步-预测低频IMFs 将使用传统NN方法直接预测,例如WNN、FNN、ENN、BPNN和GRNN。这五种神经网络方法背后的数学基础在当前的研究工作中得到了广泛的讨论。为了达到尽可能的简洁性和更好的理解,本文只介绍了相应的体系结构图,如图3所示。高频IMFs-Chp由于具有高波动性的特点,其准确预测比较困难。为了克服这个缺点,我们建议利用热电联产内部的自

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[241464],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。