1. 引言
在如今高速发展的社会形势下,能源的消耗速度在逐渐加速。近年来巨大的能源需求已经引发了资源耗尽和环境降级等问题。为了应对这种危机,全球各地已经开始专注于开发可再生能源,以推动能源的可持续发展。因此,寻求一个环保、可持续的能源是未来能源产业的发展趋势。就目前的生态形式和国家能源战略要求来看,作为新能源的风能是具有极大的发展潜能的。
风力发电的动力输入为大自然界的自然风,它具有不可控性、随机性、不连续性和波动性,导致了风力发电在维持电网电压频率稳定性方面比较差。这些特点同时也会加大风速高精度预测的难度。研究短期风速变化并进行风速预测是一项很有实际意义的工作。
针对短期风速预测存在的精度低,不可靠、鲁棒性差的问题,风电预测专家学者们已做出了很多工作,取得了很多值得关注的显著性成果。
初始的短期风速预测模型大都采用统计学的方法,比如灰色预测模型、马尔柯夫链预测模型,以及自回归预测模型 [1] 等。虽然这种统计学为基础的模型在预测上实现了部分效果,但是,由于其主要依赖于统计学原理和线性模型来进行模拟,因此对于风速的非线性和波动行为的精确预测,仍有改进之处。另一种是基于机器学习的模型,如支持向量机模型 [2] 和神经网络 [3] [4] ,通过学习风速的历史数据,能够更好地拟合风速变化。相比之下,基于机器学习的模型在处理风速的非线性回归上表现出色,并且预测的精确度也得到了提升。
尽管如此,但单独的预测模型在预测风速上仍存在准确度不足的问题,因此,目前研究人员开始将注意力放在混合模型上,其中采用“分解–预测–重构”策略的混合预测模型被广泛应用。相较于传统模型,其在提升预测精度上表现出更大的效果,并为预测风速提供了一种新的思路。该预测模型首先运用分解技术使得非线性非稳定的风速序列平稳,然后建立适合的数学模型进行预测。比如赵征等 [5] 觉察到风速序列强烈的波动性,他们提出了以VMD和ARIMA为基础的超短期风速预测模型。王贺等 [6] 在CEEMDAN和LSTM组合模型的基础上使用了布谷鸟算法对LSTM进行了优化,然后对风速时间序列进行了预测。向玲等 [7] 将CEEMDAN二次分解和LSTM进行结合进行了风速多步预测研究。王俊等 [8] 基于VMD和LSTM进行了超短期风速预测。
为了解决模态混叠问题并保持信号序列的时变性,Li及其团队 [9] 引入了使用时变滤波器的TVF-EMD方法。以此为基础王文川 [10] 则利用TVF-EMD和LSTM用来进行月径流预测研究。
因此,本文基于现有的研究成果,引入了一个新的组合预测模型,该模型运用了“分解–预测–重构”的方法,该模型由粒子群优化–时变滤波–经验模态分解(PSO-TVF-EMD)、排列熵(PE)、长短期记忆网络(LSTM)和自回归差分移动平均(ARIMA)组成。首先利用PSO-TVF-EMD算法将原始风速序列分解为若干模态分量,以简化风速序列的复杂性;其次,使用PE把风速子模态分为高频序列和低频序列,并对这两种序列分别构建LSTM和ARIMA预测模型;最终,将子序列预测结果叠加,得出最终的风速预测值。
2. 算法和模型
2.1. TVF-EMD
在2017年,学者Li等 [9] 率先引入了时变滤波经验模态分解的概念,对原先的EMD方法进行了调整和优化。这项技术创新地利用了时变滤波器,有效地解决了模态混叠的困扰,同时也保持了序列的时变性。不仅如此,时变滤波经验模态分解还采用了瞬时幅度和瞬时频率,以此自行调整局部截止频率,以达到对输入序列进行时变滤波的效果,在进一步划分出局部高频和局部低频成分后,产生了固有模态函数(Intrinsic Mode Function, IMFs)。
TVF-EMD方法的计算步骤为:
1) 利用Hilbert变换计算时间序列的瞬时幅值
和瞬时频率
;
本式中:
为时间序列
的Hilbert变换。
2) 确定瞬时幅值
的局部极大值序列和局部极小值序列,分别表示为
和
;
3) 对
进行插值得到
,以同样的方法对
进行插值得到
,计算瞬时均值
和瞬时包络
:
4) 分别对
和
进行插值,得到
和
,并计算瞬时频率分量
和
;
5) 计算局部截止频率
:
6) 为解决间歇问题,重新对局部截止频率
进行调整;
7) 计算信号
,并将
的极值点作为构造时变滤波器的节点,采用样条插值对时间序列
进行逼近;
8) 计算停止准则
,如果
,则可确定
为一个IMF,不满足则令
重复执行(1)~(8);
分解后得到的所有模态分量
,将全部的分量相加得到的值则为原时间序列
的值。
2.2. PSO算法
粒子群优化(PSO)策略根据鸟儿觅食的行为获得启示,常用于处理最优化问题。在PSO结构中,各个粒子象征着在解空间内移动的点,其速度各不相同。每个粒子都会根据与目标函数相匹配的适应度有不同的解,适应度函数是根据最优化目标设定的,可测量解的优劣。粒子们会追随现在最优的粒子在解空间里搜寻,通过不断的迭代最后找出最优解。
2.3. PE算法
排列熵(PE)算法是一种基于信息论的度量方法。通过相邻值的比较,分析了时间序列数据的复杂性。PE 算法计算如下:
首先,假设时间序列
,并重构其相空间:
然后,按升序重新排列
中的元素:
每个可能的排列都表示为
,m维序列存在m!不同的排列。每个排列的概率是
。根据信息熵,置换熵的归一化可以定义为:
PE的值介于[0, 1]之间,表示时间序列的复杂性。PE值越接近1,时间序列的复杂度越高;PE值越接近0,时间序列的复杂度越低。由于ARIMA模型对时间序列的平滑性要求较高,本文采用不同的置换熵值进行实验分析,然后确定置换熵的阈值为0.2,大于0.2的是非平稳高频序列,小于0.2的是平稳低频序列。
2.4. LSTM
长短期记忆网络(LSTM),作为递归神经网络(RNN)的升级版本,引入了一种更佳的计算方法。它的模型能够自动提取时间序列数据中的特征,获取长距离关联信息,并有效避免在RNN训练过程中,梯度爆炸和梯度消失等问题的出现。LSTM与RNN的主要不同之处,是在其门架构中增加了单元状态,这能记录历史数据状态信息。图1对LSTM模型的构造进行了展示,其核心由输入门、忘记门以及输出门构成。此外,Tanh激活函数控制输入的更新,
和
分别是
和
时间的细胞状态,
和
分别是
和
时间的隐藏细胞状态。
Figure 1. Long short-term memory network
图1. 长短期记忆网络
2.5. ARIMA
自回归差分移动平均(ARIMA)是分析预测变量的未来值与历史值之间的线性函数关系的一种方法。ARIMA(P, D, Q)模型首先检验时间序列的平稳性,如果平稳性不满足,则对时间序列进行d阶差分将非平稳时间序列转化为平稳时间序列,然后对平稳时间序列建立自回归移动平均模型(ARMA(p, q))。ARMA方程为:
3. 新的组合预测模型
3.1. PSO-TVF-EMD
参数设置是执行TVF-EMD分解的关键环节,尤其是,宽带阈值ξ和B样条级数n对分解效果有巨大影响,因此,如何选择这两个参数成为了问题的关键点。一般这两个参数都是根据经验,人为选定,但本文利用PSO算法对这两个参数进行优化,粒子群优化算法是一类经典的集体智能优化方法,它通过连续调整粒子的速率和位点,同时保留了个体最优与全局最优,经过持续的循环,实现最优解的获得。
当用PSO算法来优化TVF-EMD分解的最优参数组合时,必须设定一个目标函数。信噪比可以很有效地揭示信号分解降噪效果,它的数值体现了降噪的效能,所以本文选择信噪比作为PSO算法的目标函数。
具体步骤如下。首先用TVF-EMD对时间序列数据进行分解与处理,如果重构出来的信噪比高,这就意味着降噪效果优秀;反之,如果信噪比较低,则降噪效果差。接着选取一组参数作为PSO算法的起点,当第i个粒子位于某个位置,便计算该位置下,通过TVF-EMD分解和重构后的降噪数据信噪比,把信噪比最大的标记为局部最佳值,其对应的重构数据被视为最优重构数据。然而,这只是局部的最优值,为了在风速时间序列数据中找到降噪表现最卓越的重构数据,目标函数被设为信噪比最大的情形,并对参数配置进行优化。最后,携带优化后的参数配置进行TVF-EMD分解,预估出信噪比最大的重构数据,从而获得预测结果。
算法步骤如下:
1) 初始化PSO算法的各项参数并将信噪比作为目标函数;
2) 初始化粒子种群,随机产生一定数量的最佳影响参数组合[ξ, n]作为粒子的初始位置,随机初始化粒子的速度;
3) 在不同粒子位置条件下对信号进行TVF-EMD分解,计算每个粒子位置相应的信噪比;
4) 对比信噪比大小,并更新个体局部极值和全局极值;
5) 更新粒子的速度和位置;
6) 循环迭代,转至步骤(3),直至迭代次数达到最大设定值,并输出最大信噪比及粒子的位置;
7) 利用获得的参数组合[ξ, n]对信号进行TVF-EMD分解;
8) 对信噪比最大的IMF分量进行预测,得出最终预测值。
3.2. 总体结构框架
由于风速数据存在着明显的非线性和非稳定特性,本文首先使用了PSO-TVF-EMD算法对这些数据进行初步处理,并将风速序列分解为不同频率的子序列。接下来,运用PE算法计算出各子序列的排列熵,并根据其复杂度选择出高频和低频子序列。对高频子序列,利用了LSTM进行精确预测,而对于低频子序列,采用了ARIMA用以准确预测。收集到高频和低频子序列预测数据后,将二者预测结果进行了结合,以此获得了最终的风速时间序列预测值。
步骤如下:
利用PSO-TVF-EMD方法将原始风速序列分解为n个模态分量。
利用PE算法计算n个序列分量的置换熵,并根据时间序列的复杂性将模态分量分为高频部分和低频部分。
LSTM用于预测高频序列,ARIMA用于预测低频序列。
通过加入高频序列和低频序列的预测结果,得到风速的预测值。
风速预测框图如图2所示。
4. 实验及结果分析
4.1. 风速资料说明
本文所使用的数据来自于湖北省武汉市的气象台,这些数据的收集周期是在2021至2022年的某个时间段,每小时收集一次。共计有5000个数据点,从中挑选样本进行研究,其中风速数据的具体情况如图3所示。基于9:1的比例,本文从前4501个数据点中选择了训练样本,其余499个数据点被用作测试样本。如图3所示,风速数据展现出明显的非线性和不稳定性,增大了预测难度。然而,经过TVF-EMD分解处理,风速可以被拆为易于预测的时间子序列。此时,可以得到26个自高频到低频的模态函数。为了量化子序列频率的高低,用PE算法计算了序列的排列熵值。对ARIMA模型来说,排列熵值越小,其时间复杂度越低,预测精度也越高。其中,IMF1到IMF13被视为高频序列,用于在LSTM网络模型中做预测,IMF13到IMF26则被认为是低频序列,用于在ARIMA模型中做预测。
4.2. 评价指标
本文运用了三种测量指标,即RMSE (均方根误差)、MAE (平均绝对误差)和皮尔逊相关系数,来衡量与实际风速的差异及不同模型对于风速预测的准确度。这些指标的计算公式如下:
4.3. 预测结果及对比分析
为了验证PSO-TVF-EMD-LSTM-ARIMA模型预测的效果,选择与LSTM、EMD-LSTM、EMD-ARIMA和TVF-EMD-LSTM这4种模型进行对比,这些模型均采用与目标模型相同的参数及变量设置。
由图4可以看出:① 单一的模型预测效果较差,只能显示序列的大概趋势,预测值误差较大。② 同一个预测模型采用不同方法对数据进行预处理,其预测精度都会有显著的差别。TVF-EMD-LSTM模型预测精度从图中可以看出明显比EMD-LSTM模型要高。③ PSO-TVF-EMD-LSTM-ARIMA模型预测精度最高,说明在数据的预处理上,PSO-TVF-EMD模型有效的缓解了EMD存在的模态混叠问题和噪声问题,更适合处理非线性非平稳的序列,并且能取得较好的预测结果。
本文采用三个评价标准来测试目标模型预测的精度,其中RMSE与MAE的数值越小,且r系数越接近于1,说明此模型的结果误差越小,精度越高。各个模型的误差评价指标的具体值如表1所示。由此可知:① LSTM模型各项误差指标最大,随着采用EMD和TVF-EMD方法后,各模型的MAE、RMSE明显变小,如图5所示。RMSE上,本文模型相对LSTM、EMD-ARIMA、EMD-LSTM、TVF-EMD-LSTM分别提升了50.14%、26.44%、35.42%、12.60%。MAE上,分别提升了67.33%、54.62%、31.01%、15.74%。皮尔逊相关系数也更接近于1,因此,PSO-TVF-EMD-LSTM-ARIMA模型的预测精度更高。② 风速时间序列中普遍含有噪声,并且具有非平稳性和多频性,如果直接预测会使得LSTM模型的预测会产生较大的误差。而EMD分解则会存在模态混叠的问题,高频序列可能会与低频序列混杂,对预测结果影响较大。TVF-EMD就很好地解决了EMD的模态混叠和噪声问题,有效地提高了模型的预测精度,但是它对参数有较高的要求,所以本文使用PSO对参数进行优化来提升模型的处理结果,从结果中可以发现,PSO-TVF-EMD具有较好的分解效果,它优化了模型参数,解决了EMD存在的模态混叠和噪声的问题,使PSO-TVF-EMD-LSTM-ARIM模型预测结果最好。因此,PSO-TVF-EMD-LSTM-ARIM模型在风速预测上具有较好的效果,适用于预测非平稳、非线性、复杂多频的风速时间序列。
Figure 4. The predicted results of each model
图4. 各模型的预测结果
Table 1. Error evaluation of each model
表1. 各模型的误差评价
5. 结论
本文运用了粒子群优化的TVF-EMD算法来分解风速序列,目的是解决模态分解的存在方法中分量的噪声和模态混叠问题,以提高模型预测的精准性。同时,采用LSTM和ARIMA模型分别针对高频和低频分量进行预测,这样做有助于对各种频率的模态分量做出有效预测,从而提升整体预测的准确性。以武汉每小时平均风速为例进行了风速预测对比及验证。并与其他模型进行对比,得到主要结论如下:
1) TVF-EMD方法对于非线性和非平稳的风速时间序列有着更好的适用性。这种策略能够依据序列的特性作出相应的调整,并能通过使用时变滤波器有效地对抗模态混叠问题,同时保持序列的时变性。它也有助于大幅提高预测的精确度,为风速序列的预处理提出了新的对策。
2) 使用粒子群优化算法对TVF-EMD进行优化可以很好地提升TVF-EMD提取数据特征的能力,本文模型在各指标上预测精度均有明显提升,从数据中可看出提升显著。
不过,本文只考虑了短期风速预测,未来可以扩展到不同的时间尺度上进行风速预测,同时也可以考虑季节性变量或环境影响进行预测以确认此组合模型的通用性。
基金项目
国家自然科学基金项目(12361064,52275504);湖北省教育厅科学研究计划资助项目青年项目(Q20211111):武汉科技大学冶金工业过程系统科学湖北省重点实验室开放基金项目(Y201905)。