1. 引言
当前,在新电改的影响之下,电力行业信息化和工业化的不断融合促使电力数据量的暴增。电力大数据受到各个因素的影响,产生大量多源异构数据,且需求侧用电数据具有的随机性、非线性、时变性和分散性,致使用电负荷预测的难度较大。因此,亟需研究用电负荷预测技术与方法,为高效的能源消费提供数据支撑。
近年来区域电网的互联升级,电网规模的不断扩大以及用电需求的持续增长,使得电力系统高峰负荷和峰谷负荷差不断增大,电力系统所面临的风险受到电力部门的重点关注 [1] [2]。精准的电力数据分析是降低电网运行风险的关键 [3]。在电力大数据时代,为充分挖掘数据的信息,各种算法、模型纷纷被纳入各种尺度的数据分析中。深度学习是机器学习和人工智能研究的新趋势之一。作为神经网络的延伸,它解决了BP网络随着网络层次的增加,可能会出现的局部最优解、过拟合、以及无标签数据的缺陷 [4] [5]。深度学习中较为常用的网络模型有深度置信网络(Deep Belief Networks, DBN) [6],卷积神经网络(Convolutional Neural Network, CNN) [7],递归神经网络(Recurrent Neural Network, RNN) [8]。其中,递归神经网络是一类具有短期记忆能力的神经网络。其神经元不但可以接收其他神经元的信息,还可以接收自身的信息,形成具有环路的网络结构。当输入序列比较长时,会产生长期依赖问题。为了解决这个问题,引入门控机制来改进递归神经网络,于是诞生长短期记忆网络和门控循环单元网络 [9] [10]。陈振宇等建立LSTM与XGBoost的组合预测模型来预测超短期电力负荷,并于GRU与XGBoost的组合预测模型相对比,认为前者具有更高的预测精度 [11]。吕海灿等基于Wide&Deep-LSTM模型预测台区电力负荷,结果表明该模型具有较高的实用性 [12]。
基于此,在当前电力大数据环境下,由于传统模型难以满足现实诉求,故本文拟采用深度学习理论结合经验模态分解、样本熵、小波变换方法来挖掘用电负荷数据中的有效信息,以期充分利用电力大数据,提高用电负荷预测精度。
2. 理论分析
2.1. 经验模态分析
经验模态分解首先需要找出原始信号
中所有的局部极大值点和局部极小值点,使用三次样条分别连接极大值点和极小值点作为上包络线与下包络线,并求出上包络线与下包络线的均值
。信号
与
的差为
,若
满足在整个数据内,局部极值点与过零点的数目之差小于等于1或者在任意时刻,局部最大值的包络(上包络线)和局部最小值的包络(下包络线)的平均值必须为零,则第一个分量可以表示为
。若不满足IMF的条件,则可将
看成原始信号处理,再进行上述方法。经反复筛选n次,直到
是单调函数或是一个极小的常量时,停止分解过程,并得到下式:
(1)
2.2. 样本熵2.3小波变换
是长度为N的原始数据,预先给定嵌入维数m和相似容限
,依据原始信号重构一个m维向量,
(2)
距离
代表了
和
两者对应元素差值绝对值的最大值,
(3)
其中
。
计算
与其余向量
的距离
,统计
小于
的数目n以及次数目与距离总数
的比值,即:
(4)
其中
;
。
进一步求出
的平均值,
(5)
同样的方法,对维数
,求得到
。
样本熵可以用SampEn(m, r, N)表示,其中m表示维数,
表示相似容限,N表示长度,则:
(6)
由(6)可以看出SampEn的值与m和
有关,一般情况下m = 1或2,
,其中SD表示原始时间序列的标准差。
2.3. 小波变换2.4长短期记忆网络
小波变换理论的发展离不开小波函数的支撑,一般将定义时域具有紧支集且平均值为0的函数称为小波函数。令
,当傅里叶变换函数
满足(7)时,
(7)
就称
为小波母函数。进一步对小波母函数
进行伸缩平移变化后,得到:
(8)
其中,
为依赖参数
的小波基函数,a为尺度因子,b为位移因子。
离散小波变换比连续小波变换具有更广泛的实际应用。对尺度因子a和位移因子b按照幂级数进行离散化处理。令
,
,其中
,则(8)可表示为:
(10)
称(10)为离散小波函数,进而得到离散小波变换为:
(11)
其中,
为连续小波变换系数,
为
的复共轭函数。
离散逆小波变换公式为:
(12)
其中,C为一个常量。
2.4. 长短期记忆网络
长短期记忆网络是一种特殊的递归神经网络,其具有能保存时间间隔较长的信息的特性,即能够弥补递归神经网络在预测时间间隔较长的序列时预测结果出现偏差的缺点。长短期记忆网络模型的细胞单元,如图1所示。
长短期记忆网络模型是在递归神经网络的基础上加入细胞状态和门限。其中,细胞状态(cell state)是图1中一条单向流动的水平信息运输线,信息在这条水平线上只会进行少量的信息交流。在遗忘门中,(13)决定哪一部分信息需要被丢弃,
(13)
其中,
代表了多大程度上忘记之前的信息,
是上一时刻的输出结果,
是当前时刻的信息输入,
、
分别为遗忘门的权重和偏置。
输入门则是选择信息中哪一部分的需要被放入细胞状态。其中,
代表有多少信息需要被更新,
、
分别为遗忘门的权重和偏置,
为tanh层生成一个新的候选数值,
为当前细胞状态。
(14)
(15)
(16)
输出门则是将需要被输出的细胞状态进行输出。其中
决定输出哪一部分的细胞状态,
、
分别为输出门的权重和偏置,
为需要输出的信息。
(17)
(18)
3. 实证分析
3.1. 数据的来源
电力系统的数据信息的获取通常具有局限性。基于数据的可行性,本文从某开源网站上获取美国某地区2019年1月至2021年4月的居民用电负荷,其采样间隔为5分钟。对于用电峰谷负荷值的预测,由于考虑到精确的负荷预测值能有助于供电部门更好的制定供电计划,所以选择居民用电负荷日平均值作为研究对象。如图2所示,即为居民日用电负荷序列,可以看到该负荷曲线波动频繁。进一步分析一天中居民用电规律,以2019年1月1日为例,如图3所示,可知早上4点到早上8点为居民用电增长阶段,从早上9点到下午5点居民用电负荷较为稳定,晚上6到晚上8点为居民用电的高峰期,随后居民用电逐步减少。
Figure 2. Daily electricity load of residents
图2. 居民日用电负荷
Figure 3. Hourly electricity load of residents on January 1, 2019
图3. 2019年1月1日居民每小时用电负荷
根据表1中的居民日用电负荷数据的描述性统计特征,可知该序列偏度大于0,峰度大于3,即居民日用电负荷数据分布呈现右偏尖峰。
Table 1. Descriptive statistical characteristics of residents’ weekly electricity load series
表1. 居民周用电负荷序列描述性统计特征
3.2. 经验模态分解
为得到的更为精确的峰谷负荷预测值,本节运用长短期记忆网络对用电峰谷负荷进行预测。对美国居民日用电负荷序列进行经验模态分解,分解后得到本征模函数imf1、imf2、imf3、imf4、imf5、imf6、imf7及残差res。从经验模态分解图(如图4所示)中,可以看到各个本征模函数的频率依次降低,函数波形的变化渐缓且趋势趋于平滑。
若直接对本征模函数建立长短期记忆网络模型,这无疑增加了重复建模的工作量,并且各个本征模函数之间的相关性也会被忽略,所以需要对各个本征模函数以残差序列进行数据重构。
3.3. 数据重组
样本熵值代表了数据的混乱复杂程度。在对imf1、imf2、imf3、imf4、imf5、imf6、imf7以及残差res求取相对应的样本熵值后,根据各本征模函数和残差序列的复杂程度对日用电负荷数据的各个分量进行划分重组。如图5所示,经过经验模态分解之后,样本熵值整体呈现递减趋势,即经过经验模态分解后各分量的复杂程度在逐步降低,进一步说明经验模态分解能有效地提取信号特征。
Figure 5. Sample entropy of original data and eigenmode function
图5. 原始数据与本征模函数的样本熵值
本征模函数中imf1与imf2作为用电负荷序列中的高频分量,两者的样本熵值较大,说明两者中含有大量环境噪声,且相较于其他分量呈现出十分强烈的随机性和波动性,因此,可将imf1与imf2重组成一个新的分量,称其为随机分量。而imf3、imf4、imf5和imf6的样本熵值较为接近,且根据经验模态分解图中的波形变化,认为imf3至imf6在复杂程度降低的同时呈现出了一定的规律,则可将其进行叠加组合得到新的分量,即细节分量。imf7和res的样本熵值较为接近,并且两者的波动性较小,序列变化趋势较为平缓,故将二者进行数据重新组合后得到趋势分量。重组后的各个分量如图6所示。
图6中的随机分量由于受到季节温度等环境因素的影响,导致其具有规律性差,波动性强的特征,故在一般情况下难以得到较为精准的预测结果。细节分量与样本序列的波动规律较为接近,反映了用电负荷的周期特征和居民活动规律。趋势分量的趋势变化与原始数据大致相同。
Figure 6. Intrinsic modulus function after sample entropy
图6. 经样本熵处理后的本征模函数
在建立长短期记忆模型时,若直接剔除含有噪音的随机分量可能会造成信号失真,所以选择一维小波变换对随机分量进行降噪处理,小波函数选取db4。对比去噪后的趋势分量与原始趋势分量,如图7所示。对比经去噪处理之后的趋势分量与未处理的随机分量后,发现经过降噪的随机分量的趋势更为平滑,这说明小波变换在一定程度上剔除了环境噪声对随机分量的影响。
Figure 7. Comparison of trend components after wavelet transform
图7. 小波变换后的趋势分量对比图
3.4. 长短期记忆网络预测
由于用电负荷数据为单变量时间序列,故需要选择一定的时间步长作为滞后观察量。在本节中所使用的样本数据为居民日用电负荷,因为居民每周的生活工作基本重复,所以时间步长选择为7。长短期记忆网络结构为单层,神经数为256,其中,迭代次数固定为10000次,批量大小为1000,将样本数据的80%划分为训练集,剩余20%为测试集。
EMD-LSTM、模型分别对随机分量、细节分量和趋势分量的预测结果分别如图8、图9和图10所示。从图中可以看到细节分量和趋势分量的预测值与相对应的真实值基本一致。较难预测的趋势分量在经过降噪处理后,其预测值与趋势分量的真实值基本接近。并将各个分量的预测结果进行累加,得到还原后的居民日用电负荷数据预测结果,如图11所示。
为更加直观的观察EMD-LSTM模型的预测效果,选择最后一周的居民日用电负荷进行观察。如图12所示,我们给出居民用电量序列最后一周的预测结果,表2与表3为最后一周各个分量和居民日用电负荷与预测值对比与模型预测误差,从图12与表2,表3中可以看到该网络模型的预测误差较小,拟合效果较好。
Figure 8. Random component prediction results
图8. 随机分量预测结果
Figure 9. Detail component prediction results
图9. 细节分量预测结果
Figure 11. EMD-LSTM model prediction results
图11. EMD-LSTM模型预测结果
Figure 12. EMD-LSTM model prediction results (2019.4.13~2021.4.19)
图12. EMD-LSTM模型预测结果(2019.4.13~2021.4.19)
Table 2. Comparison of model predicted value and real value
表2. 模型预测值与真实值对比
4. 结论
本文首先对用电负荷数据采用经验模态分解得到各本征模函数及残差,然后根据各本征模函数及残差的样本熵值进行数据重组,并运用小波变换提出随机分量中的环境噪声,最后采用长短期记忆网络进行用电负荷预测。由模型的均方根误差中可以由此认为,该模型能够为供电当局精准把控电力能源的利用提供可能。同时,在一定程度上避免超负荷导致的大面积停电事故或者在用电负荷低谷时期对电网输送电量过大,造成电力资源一定程度上浪费。
基金项目
冶金工业过程系统科学湖北省重点实验室开放基金(编号:Y201902);武汉科技大学教学研究项目(2018X029);武汉科技大学研究生教育教学改革研究项目(Yjg201815)。
NOTES
*通讯作者。