1. 引言
1.1. 背景
近年来随着温室效应的不断加剧,各种极端气候的出现变得愈加频繁,而导致温室效应的主要来源就是大量温室气体的排放。其中,温室气体的主要排放源便是各种化石燃料的燃烧;化石燃料的燃烧会对环境造成严重的危害,通过抑制其产生的温室气体排放来缓解温室效应的加剧是愈来愈关键的方法。同时由于化石燃料的广泛使用,新能源、可再生能源的使用更加需要提上日程。虽然随着新能源汽车与高铁的普及,化石燃料在载具方面的应用逐渐减少,但是由于现在大多数的发电来源依旧为火力发电设施。因此并没有很大程度地解决温室气体的排放问题,而光伏发电是化石燃料发电的最佳替代品之一。此外,城市能源需求的不断增长,光伏发电系统利用太阳能也减少了对传统能源的消耗,实现能源的高效利用。在城市建筑屋顶大范围安装光伏发电系统,可以显著降低建筑能耗,提高城市可持续资源利用率。同时光伏电站也可以在各种严苛的环境进行有效的发挥作用,甚至在Kumar等人[1]的研究中实现了10 MW运河顶部安装太阳能电站,表明水体也可以有效地用于经济可能的太阳能发电。因此,据研究统计,全球太阳能容量已从2012年的100 GW增长到2022年4月的1 TW,全球太阳能市场呈指数级增长,预计到2025年将超过2.3 TW [2]。
人工智能(AI)具有显著改善太阳能预测的潜力,其预期影响包括提高准确性、增强短期和长期预测、提高能源效率、降低成本、与能源市场整合、环境效益、电网稳定性等[3] [4]。准确的光伏发电预测对当前的光伏发电系统至关重要。有效降低了光伏发电对电力系统的影响,保证了系统的稳定运行,进一步推动了新型电力系统的建设,促进了低碳发展。此外,精确的光伏发电功率预测提高了太阳能的利用率,从而提高了电站的投资回报率,最大限度地减少了功率限制带来的经济损失。
1.2. 相关研究
与光伏发电预测(PVPF)相关的研究工作根据其分析原理分为三大类:物理方法、统计方法和机器学习方法(ML)机器学习已广泛应用于光伏发电预测。Yang等人[5]采用反向传播(BP)法进行光伏发电功率预测,将不同相似日的预测结果融合,构筑光伏发电功率预测方法。随着人工智能(AI)方法的进步,基于深度学习的模型已经在各个行业得到了开发和实施。深度学习是一种前沿的机器学习方法,在光伏发电功率预测领域得到了广泛的研究。Wang等人[6]增强了长短期记忆网络(LSTM)模型来预测光伏发电的高频和低频成分。Lee等人[7]采用两种循环神经网络(RNN)模型,仅使用早晨气象信息来预测高峰地区的每小时光伏发电量。通过实验证明,该方法优于人工神经网络(ANN)和深度神经网络(DNN)。为了满足更长的时间尺度PVPF的需求,具有编码器(Encoder)-解码器(Decoder)结构的序列到序列模型应该得到更多的关注。作为一种流行的深度学习模型,Transformer在自然语言处理(NLP)领域表现优异[8]。与传统的RNN和卷积神经网络(CNN) [9]相比,Transformer使用了一种自注意力机制,能够使得在训练的时候不受位置信息的影响。它可以更好地捕获长序列的全局语义信息。然而,它的高时间复杂度、内存占用和性能下降限制了它在时间序列预测领域的应用。为了克服这些挑战,Zhou等人[10]提出了Transformer的一种变体,称为Informer,该变体在四个大规模时间序列数据集上进行了测试,并显示出优异的性能。一些研究尝试将Informer应用于PVPF领域,目的是利用其处理长序列时间序列数据的强大能力。
由于光伏数据的不稳定性,考虑将各种信号处理方法与informer结合,或者是结合多种深度学习模型,构建混合模型一般能够更好的处理PVPF领域的问题。Cao等人[11]将传统叠加算法中的k-fold交叉验证改进为时间序列交叉验证,用于整合时间序列预测模型。同时结合长短期记忆(LSTM)与informer,通过整合两种模型的优势,该模型实现了精准的中短期光伏发电功率预测。Li等人[12]在建筑能耗管理系统领域中,提出了一种将集成经验模态分解(EEMD)与informer相结合的混合算法,针对其能耗数据在状态非平稳和长时间的数据非线性的情况。使用EEMD将原始数据分解为几个内在模态函数(IMF)组件,然后使用Informer进行预测,并使用PSO在预测期间调整超参数。最后一步,将IMF各分量的预测结果综合起来得到最终的预测结果。该模型大幅提高了预测的准确性。混合Informer模型也可以在金融行业发挥其强劲的性能优势。Ren等人[13]结合小波变换,将Encoder Forest (EF)与Informer相结合;将原始数据分为高频信号分量(CD)和低频信号分量(CA),由informer处理低频,EF处理高频。构建了一种具有较高的预测精度、较强的泛化能力和较强的实用性,而且更适合于股票预测问题的一个混合模型。
1.3. 创新性
本文提出一种基于经验小波分解(EWT),基于网格的聚类方法(GBC)改进的Informer和模拟退火优化算法(SA)的光伏功率预测方法模型。该模型克服了光伏发电公路预测的局限性,使用混合模型,对现有的模型进行了改进,大幅提高了预测的准确性,本文的创新如下:
(1) 采用IQR法对数据进行预处理,移除过大与过小的数据。移除与光伏功率预测相关性不大的特征以减少运算压力。
(2) 采用EWT方法对原始数据进行分解,将天气数据与光伏功率数据均进行分解,降低数据的波动性与非平稳性,信号被分解为若干个IMF分量与残差项。
(3) 本文尝试对Informer模型进行改进,使用基于网格聚类的哈希机制,将查询向量划分到指定数量的桶中来寻找最关键几个向量,从而提高模型的准确性,降低由于原本随机选择的键向量带来的不确定性。
(4) 使用模拟退火优化算法对改进的Informer模型的超参数进行优化,通过多次的迭代,得到具有更强的预测准确度的超参数配置。提高模型整体的预测水平。
(5) 本文使用的数据集选用的是位于澳大利亚亚乌鲁鲁附近的尤拉拉太阳能系统站点的数据,并采用4个科学指标来检验模型的有效性,并将几种传统模型与本文的混合模型进行了比较,以展现其更优的预测性能。
2. 基础知识
2.1. Informer
Informer是Zhou等人[10]提出的一种新的时间序列预测模型。Informer模型相较于Transformer增加了一种生成式解码器,其只需一步即可获得长序列的输出。避免了预测阶段的误差累积传播问题,提高了长序列预测的效率。同时,Informer引入自注意力蒸馏(Self-attention Distilling)与ProbSparse自注意,降低了注意力计算过程的时空复杂度。图1为Informer模型概述:
Figure 1. Introduce of the informer
图1. Informer模型概述
2.1.1. Self-Attention Distilling
在Encoder部分,Informer使用了一种自注意蒸馏的方法,降低了算法对内存和时间的需求。向量输入后,将第t个输入序列塑造为一个矩阵
。
在Probsparse的机制下Encoder特征映射后会产生具有值(Value)的冗余项。使用Distilling操作,提取具有主导特征的项并在下一层生成集中的自注意特征映射。对输入的时间维度进行大幅缩减。该Distilling操作按照下式进行操作:
(1)
其中Conv1d函数用于处理一维时间序列的卷积。指数线性单元(Exponential Linear Unit, ELU)表示激活函数,最后进行最大池化(MaxPool)操作,用于增强注意细化机制的稳定性。
2.1.2. Probsparse Self-Attention
给出了一种更有效的方法找出那些更为关键的u个向量。由公式(3)可以得知
,那么我们可以给出最大均值度量式:
(2)
在长尾分布下,随机抽样
点积对来计算
,然后将其他点积对用0填充。之后从其中选择Top-u个作为
。以此完成对查询向量的筛选,也即完成对自注意部分计算的复杂度简化完成。其
使得Probsparse自注意的总时间复杂度和空间复杂度为
。
2.2. Grid-Based Clustering in the Frame of Locality Sensitive Hashing
2.2.1. Locality Sensitive Hashing
Kitaev等人[14]提出一种Reformer的模型改进transformer以减少其运算量,并增加其模型的精度。在Reformer模型中,作者引入了一种局部敏感哈希(Locality Sensitive Hashing)注意的方法,改进Transformer中的点积注意部分。
局部敏感哈希即为将每个向量
分配到哈希(hash)
,邻近的向量有高概率被分配到相同的哈希
,也即附近的向量高概率得到相同的哈希值。但正如上文所述,哈希总有可能有一个小概率相似的项目落在不同的哈希桶中,这种概率可以通过使用不同的哈希函数
进行多轮哈希来降低:
(3)
其中
,
定义为查询(query)位置i尽可以关注到的单个哈希桶
。
2.2.2. Grid-Based Clustering
基于网格的聚类算法是一种时间复杂度较低,可以并行运算的简单高效的聚类算法。比起K-means算法省去了冗长的迭代过程。通过可控的区间划分大小,灵活调整采样。也同时由于时直接基于内容进行的分组,采样结果稳定。其基本理念为,将数据空间划分为若干个单元,这些单元构成网络,然后在网络结构上进行聚类。
由上述内容可知,该种基于网格的聚类方法,其关键取决于网格单元的正确划分。本文中考虑将该种基于网格的聚类方法与LSH相结合,通过LSH的多轮哈希,来更新网格的选择,来增加模型的鲁棒性,使其更加适合处理长序列。网格划分与哈希桶概念相似,但处理更加高效,都能够避免直接计算大规模点积造成的计算复杂度过高的问题。
首先将定义每个维度网格的数量:
(4)
其中
为总桶数,d为向量的维度。其次,初始化网格边界为范围[−1, 1]。
2.3. LSH-GBC-Informer
本文模型通过将数据预处理后将其标准归一化映射到区间[−1, 1]。针对Informer提出的基于Transformer的ProbSparse自注意机制,其存在并行计算能力弱,同时关键查询向量筛选较为简单的问题,不可避免地存在一定的鲁棒性不足,计算能力弱的问题。本文结合使用网格聚类改进的LSH聚类算法对该部分进行改进,提高了其并行计算能力,增加了处理长序列问题上的预测精度。在原模型的每一步中的ProbSparse自注意部分使用本文的混合聚类方法进行改进,查看图2对本文提出的改进法的介绍。
Figure 2. Frame of GBC-LSH-Informer
图2. GBC-LSH-Informer模型框架
2.4. Optimization Algorithm
对于模型的超参数,不易通过手动调整来获得最优的超参数。Informer模型有比较多的超参数,而且超参数的调节范围也比较大,通过优化算法进行迭代多次模型参数的选取也会更有可能得到最优的参数,提高模型的预测准确性。本文选择使用模拟退火优化算法来对模型的超参数进行调整。
2.4.1. Simulated Annealing Optimization
Kirkpatrick等人[15]提出了一种基于物理退火过程的数学模拟。其基本思想为模仿金属退火的物理过程。
模拟退火的过程由以下几步构成:首先是,在一个高有效的温度下的“融化”系统;其次,缓缓降低温度直到系统进入“冻结”,并且不再出现变化。系统的最终状态的总体特征一般会在温度比较高的时候出现,细节部分一般在较低温度下形成。下图3给出模拟退火优化的算法流程示意图。
Figure 3. Flowchart of simulated annealing optimization
图3. 模拟退火优化算法流程图
2.4.2. SA in Informer
在本文中,使用模拟退火优化算法对Informer模型的超参数进行优化,通过多次迭代,最终得到预测精度最高的超参数组合和预测结果。首先,我们将几个超参数作为模拟退火算法的初始解,超参数的选值范围给定,再设定初始温度T和降温速率
,设定迭代次数。其次,生成随机初始解后,进入模型使用这些超参数进行训练,得到第一次训练结果,保存对应的超参数与4个评测指标作为该次迭代的结果。然后,提供扰动,产生新的超参数,更新温度
,投入模型中进行训练。之后一直重复上述步骤,知道满足迭代次数,可以在结果中得到最优的超参数结果,与其对应的评价指标数据。
2.5. Empirical Wavelet Transform
经验小波变换(Empirical Wavelet Transform, EWT)是Gilles [16]提出的一种处理非平稳信号与多分量信号的基于信号分解的分析方法。适应性和灵活性是其主要优势,能够适应性地构建信号的频带分解。通过为每个频带构造小波基函数,是根据频带自适应生成,能够更好地捕捉信号的局部特征。同时通过频带划分和上述自适应滤波器的设计,减少了模态混叠现象。与传统小波相比,它也能提供更加精确的频带划分,与EMD相比也具有更低的计算复杂度。
3. EWT-GBC-Informer-SA算法流程
本文构建了一种基于Informer模型的混合模型,使用了EWT进行数据分解,使用GBC对Informer部分自注意部分进行改进,使用SA对模型的超参数进行优化,算法的基本流程如下(图4):
一:获取光伏发电站数据,包含有功功率,辐照指数等;
二:进行数据预处理,使用IQR去除异常值,标准化;
三:使用EWT对数据进行模态分解,将分解后的数据一起作为训练特征;
四:引入GBC在LSH框架下对Informer模型的自注意机制部分进行改进,使用GBC来为每个与查询(Query)向量寻找相邻的键(Key)向量,构建GBC-Informer模型;
五:对数据进行分组,分为训练集、测试集与验证集,然后将训练数据放入GBC-Informer进行训练;
六:使用模拟退火算法SA对选定的几个超参数进行优化,使用优化后的超参数进行再一轮训练,直至达到停止条件;
七:输出多次训练与优化后模型训练预测结果的科学指标,与其他模型进行比较。
Figure 4. Flowchart of Informer + GBC + EWT + SA
图4. Informer + GBC + EWT + SA模型算法流程图
4. 数据集与评价指标
4.1. 数据集
本文采用的光伏发电数据来自dka太阳能中心,一个关于光伏发电系统的公共网站[17]。该网站的数据来源于位于澳大利亚的乌鲁鲁附近的尤拉拉太阳能系统3B站点。该光伏系统位于沙漠平原,日照充足,紫外线指数在11至15之间[18]。数据集的时间跨度为2016年4月1日至2024年6月4日,数据分辨率为5分钟,表1列出有关特征的详细信息。其中,有功功率Active Power为预测的目标特征。
Table 1. Details of the features included in the dataset
表1. 数据集中包含的特征统计信息(已去除异常值)
Name |
Unit |
Min |
Mean |
Max |
Std |
Current_Phase_Average_Mean |
NA |
0.0 |
11.304 |
55.428 |
15.985 |
Active_Energy_Delivered_Received |
Kwh |
3009.271 |
279141.807 |
553932.0 |
152195.696 |
Wind_Speed |
m/s |
|
−12332.533 |
15.347 |
10073696.274 |
Weather_Temperature_Celsius |
℃ |
|
−12312.157 |
46.580 |
10073740.228 |
续表
Global_Horizontal_Radiation |
W/m2 |
−17.719 |
390.541 |
9999.898 |
3667.172 |
Wind_Direction |
Degree |
|
−12167.341 |
359.0 |
10073696.469 |
Weather_Daily_Rainfall |
Mm |
|
−20183.745 |
0.294 |
10078144.540 |
Max_Wind_Speed |
m/s |
|
−11209.417 |
24.300 |
10045831.118 |
Air_Pressure |
Hpa |
|
−11377.447 |
974.210 |
10073697.343 |
Hail_Accumulation |
NA |
|
−20557.518 |
0.0 |
10783344.404 |
Pyanometer_1 |
W/m2 |
−15.800 |
570.709 |
99999.89 |
5497.271 |
Temperature_Probe_1 |
℃ |
0.0 |
43.707 |
319.744 |
10.804 |
Temperature_Probe_2 |
℃ |
0.0 |
43.768 |
263.893 |
10.804 |
Active_Power |
kw |
3009.27 |
7.692 |
40.507 |
11.162 |
上述数据将会在训练前将其标准化,训练集、测试集和验证集的比例为7:2:1。
4.2. 评价指标
本文为评估模型的有效性和准确性,使用了4个误差评估指标均方误差MSE,平均绝对误差MAE,均方根误差RMAE,判定系数
。
(5)
(6)
(7)
(8)
其中
表示预测值,
表示真实值,
表示
的平均值,n表示样本总数。
的范围在0到1之间,其数值越接近1,则表示模型的预测结果拟合度越高,MSE,MAE,RMSE越接近0,则表示模型预测结果与真实值之间的误差越小,预测结果越好。
5. 对比实验与结果
为了提高光伏发电预测模型的准确性与可靠性,本文提出了一种使用了SA优化算法与改进的Informer模型结合的混合模型。在本节中,我们将Informer + GBC + EWT + SA模型与多个改进的模型和单一预测模型进行比较。进行比较的模型分别为BP,LSTM,GRU,Informer,Informer + GBC,Informer + GBC + SA,Informer + GBC + EWT + SA。本文通过多次实验对比了本文提出的改进对Informer模型的改进效果,还比较了使用GBC改进LSH后的Informer模型与原LSH-Informer的效果。
5.1. 模型间对比
为验证混合Informer模型和改进GBC在光伏功率预测中的可行性。本文设置了6个对照组:BP,LSTM,GRU,Informer,Informer + GBC,Informer + SA + GBC,将这些对照组与本文提出的混合模型Informer + GBC + EWT + SA进行比较。表2给出了拟议模型与其余六个模型的MSE,MAE,RMSE,
值。
Table 2. Comparison of the PV prediction result
表2. 光伏发电预测结果对比
Method |
MSE |
MAE |
RMSE |
|
BP |
0.1681 |
0.2355 |
0.4099 |
0.8282 |
LSTM |
0.1429 |
0.1972 |
0.3780 |
0.8534 |
GRU |
0.1362 |
0.1891 |
0.3691 |
0.8604 |
Informer |
0.1223 |
0.1971 |
0.3498 |
0.8788 |
Informer + Grid |
0.0926 |
0.1459 |
0.3043 |
0.9083 |
Informer + Grid + SA |
0.0707 |
0.1208 |
0.2659 |
0.9299 |
Informer + Grid + EWT + SA |
0.0595 |
0.1146 |
0.2440 |
0.9410 |
本文实验模型参数如下:批量大小batch_size为256,d_ff全连接层维度为2048,d_model模型维度选取范围为16,32,64,128;随即调整多头注意力机制中头数n_head为4或8;dropout值选区范围为0.05~0.1;注意力机制参数factor在16,32,64中选取;学习率learning_rate的取值范围为1E-5到1E-3。BP的最大训练数为120,学习率为0.0001,训练目标误差为0.00001。
如表2所示,与传统模型BP,LSTM,GRU相比,Informer模型在各个指标均具有更好的指标。因此本文选择以Informer为基础进行混合模型的开发,经过对比实验,本文提出的混合Informer + GBC + EWT + SA的性能与精度确实有着更优异的成绩其MSE,MAE,RMSE最低,
最高。图6显示了7个模型在这四个指标上的表现雷达图。
Informer模型的MSE为0.1223,MAE为0.1971,RMSE为0.3498,
为0.8788。Informer + GBC模型的MSE为0.0926,MAE为0.1459,RMSE为0.3043,
为0.9083。与Informer模型相比,每一项指标均有所提升,显著显现了GBC该进对模型预测精度的提升。具体来说,MSE降低了0.0297,MAE降低了0.0512,RMSE降低了0.0455,
提升了0.0295。与Informer相比MSE,MAE,RMSE分别降低了24.28%,25.97%,13.01%,
提升了3.35%。由此可见GBC能够显著降低模型的误差,其中效果最明显的是在指标MAE中体现。而提升相对较小的是拟合度
。这些结果能够证明GBC是一项提高Informer的有效方案。
使用SA优化,得Informer + GBC + SA模型的MSE为0.0707,MAE为0.1208,RMSE为0.2659,
为0.9299.与Informer相比,MSE降低了0.0516,MAE降低了0.0763,RMSE降低了0.839,
提升了0.0511。SA的引入使得模型能够通过多次迭代优化超参数的选择,使得模型的预测精度进一步提升。与Informer + GBC相比MSE降低了0.0219、即23.55%,MAE降低了0.025、即17.13%,RMSE降低了0.0384、即12.61%,
提升了0.0232、即2.55%。通过以上数据可以看出SA的作用主要提升显著表现在MSE上,其次是在MAE上,因此,我们可以确定,SA超参数优化对于Informer是一个合理的改进。
引入EWT对数据进行模态分解后将各模态作为特征进行训练,由此我们可以得到Informer + GBC + EWT + SA模型评价指标MSE为0.0595,MAE为0.1146,RMSE为0.2440,
为0.9410。具体来说,与Informer相比MSE降低了0.0628,MAE降低了0.0825,RMSE降低了0.1058,
提升了0.0622。也就是说MSE,MAE,RMSE,分别降低了51.34%,41.85%,30.24%,
提升了7.07%。证明了改进的Informer模型,即Informer + GBC + EWT + SA模型可以达到较高的预测精度。图5展示了BP,LSTM,GRU,Informer,Informer + GBC,Informer + GBC + SA和Informer + GBC + EWT + SA的评价指标对比,清晰地表明了模型的可行性。
Figure 5. Comparison of various models
图5. 7个模型在MSE,MAE,RMSE,
四个指标对比
5.2. 混合模型中改进权重
本文使用了三个方法针对Informer进行了改进,分别是经验小波变换EWT,在LSH框架下的基于网格的聚类GBC,模拟退火优化算法。其中EWT实现了对预处理后的数据进行模态分解;GBC,即Grid-Based Cluster,实现了对Informer模型中Probsparse机制的改进;模拟退火优化算法通过多次迭代对模型的超参数进行优化。我们将在本部分中讨论本文使用的这三个改进方法对模型的改进权重。表三,展示了仅使用一个方法下对模型的性能的影响,以及混合模型中SA模拟退火算法对超参数进行迭代调试的作用。
5.2.1. 改进权重
Table 3. Comparison of the hybrid models
表3. 混合模型对比
Method |
MSE |
MAE |
RMSE |
|
Informer |
0.1223 |
0.1971 |
0.3498 |
0.8788 |
Informer + SA |
0.0765 |
0.1324 |
0.2767 |
0.9296 |
Informer + EWT |
0.0808 |
0.1368 |
0.2842 |
0.9200 |
Informer + EWT + SA |
0.0656 |
0.1146 |
0.2536 |
0.9350 |
Informer + Grid |
0.0788 |
0.1459 |
0.2807 |
0.9083 |
Informer + Grid + SA |
0.0707 |
0.1208 |
0.2659 |
0.9299 |
Figure 6. Comparison of single algorithm
图6. 单算法对比图
表3中分别给出Informer,Informer + SA,Informer + EWT,Informer + EWT + SA,Informer + GBC,Informer + GBC + SA六个模型的评价指标。首先分析不同的方法对模型的改进权重。如表3所示,在MSE指标上,Informer为0.1223,Informer + SA为0.0765,Informer + EWT为0.0808,Informer + GBC为0.0788,可以看出模拟退火优化SA在MSE上有着更高的权重。MSE一般用于反应模型的整体误差水平,对偏离真实值较远的预测值更加敏感。因此可以得出,模拟退火优化SA能够更好地针对模型的整体误差做出优化。在MAE指标上,Informer为0.1971,Informer + SA为0.1324,Informer + EWT为0.1368,Informer + GBC为0.1459,可以看出SA依旧有着比较优秀的表现,对于其他两个方法,在MAE上表现优秀。MAE表示模型预测值与实际值之间的平均偏差,对于模型来说,主要用于反应模型的稳定性。因此SA对于模型的稳定性有着比较优秀的成绩。在RMSE与
上依旧是SA有着优势,四种模型的评价指标RMSE分别为0.3498,0.2767,0.2842,0.2807;
分别为0.8788,0.9296,0.9200,0.9299。由此可见SA总体上相较于其他两种方法有着较高的优化权重,对模型性能优化起到至关重要的作用。SA对Informer的提升MSE为37.44%,MAE为32.82%,RMSE为20.89%,
为5.78%;EWT对Informer的MSE为33.93%,MAE为30.59%,RMSE为18.75%,
为4.68%;GBC对Informer的MSE为35.56%,MAE为25.97%,RMSE为19.75%,
为3.35%。根据上述数据我们可以得出结论:SA为三种方法中对模型改进权重最为高的一项,同时在四种评价指标中SA对模型性能提升最高的为
,即SA拥有较为强的能力来改善模型的拟合度,能够有效的提高模型的预测精度。图6为该四个模型的雷达图对比。
5.2.2. SA下的EWT与GBC
Figure 7. EWT and GBC with SA
图7. SA下的EWT与GBC
进一步的,由于SA是三种方法中改进权重最大的一种方法,因此我们来分析同样在SA优化的情况下哪种方法对模型可以提供更加大的提升。由表3中的评价指标数据,Informer分别是MSE为0.1223,MAE为0.1971,RMSE为0.3498,
为0.8788;Informer + SA分别是MSE为0.0765,MAE为0.1324,RMSE为0.2767,
为0.9296;Informer + EWT + SA分别是MSE为0.0656,MAE为0.1146,RMSE为0.2536,
为0.9350;Informer + GBC + SA分别是MSE为0.0707,MAE为0.1208,RMSE为0.2659,
为0.9299。如图7所示,通过对比,可以得到结果:EWT与GBC相比,EWT对模型的改进效果,在同为SA多次迭代的情况下,有着更好的表现。与Informer + SA相比Informer + EWT + SA,其评价指标结果提升了MSE为14.24%,MAE为13.44%,RMSE为8.34%,
为0.58%。参考上一小节的数据结果,在非SA迭代的情况下,GBC有着更好的改进效果。由此可以给出推论。EWT模态分解方法,将数据分为三个模态,然后将各个模态均作为输入的特征来进行训练,即从原本12个特征变为36个特征进行训练,能够对模型进行改进,但是由于增加了特征数量,使得运算变得复杂,同时也导致了在不经过迭代优化的情况下,过多的特征导致训练结果不稳定的问题。总体上在不使用SA进行参数优化的情况下GBC更能带来稳定而切实的提升,而在使用SA的情况下,EWT其多特征模态分解的能力能够给模型带来更加优异的成绩。
5.3. 基于LSH框架下的GBC改进有效性
本文针对模型Informer中ProbSparse attention部分进行了改进。此改进意在提升模型的预测精度与运算速度,参考Kitaev [14]在Reformer中提出的使用局部敏感哈希LSH对自注意机制的改进,本文考虑了一种更加效率,且能够更好提高预测精度的基于网格的聚类GBC,将其放入LSH框架中,代替桶选择的部分,保留原LSH中多轮哈希部分。表4中给出了LSH与GBC在各种模型选择时的评价指标情况。Informer + GBC的评价指标MSE为0.0788,MAE为0.1329,RMSE为0.2807,
为0.9219;Informer + LSH的评价指标MSE为0.0836,MAE为0.1281,RMSE为0.2891,
为0.9172;Informer + EWT + GBC的评价指标MSE为0.0701,MAE为0.1263,RMSE为0.2646,
为0.9306;Informer + EWT + LSH的评价指标MSE为0.0715,MAE为0.1385,RMSE为0.2961,
为0.9131;Informer + SA + GBC的评价指标MSE为0.0707,MAE为0.1208,RMSE为0.2659,
为0.9299;Informer + SA + LSH的评价指标为MSE为0.0724,MAE为0.1242,RMSE为0.2692,
为0.9282;Informer + EWT + SA + GBC的评价指标MSE为0.0595,MAE为0.1146,RMSE为0.2440,
为0.9410;Informer + EWT + SA + LSH的评价指标MSE为0.0710,MAE为0.1205,RMSE为0.2665,
为0.9296。一共6组数据,分别为在仅有Informer模型下,LSH与GBC的改进效果对比;在EWT下的对比,在SA算法进行迭代后的对比;在EWT与SA均使用的情况下,完整的混合模型间的对比。如图8所示四个评价指标在四种情境下LSH与GBC的对比。
Table 4. Evaluation metrics of LSH and GBC in various model
表4. LSH与GBC在各种模型选择时的评价指标
Method |
MSE |
MAE |
RMSE |
|
Informer + Grid |
0.0788 |
0.1329 |
0.2807 |
0.9219 |
Informer + LSH |
0.0836 |
0.1281 |
0.2891 |
0.9172 |
Informer + EWT + Grid |
0.0701 |
0.1263 |
0.2646 |
0.9306 |
Informer + EWT + LSH |
0.0715 |
0.1385 |
0.2961 |
0.9131 |
Informer + SA + Grid |
0.0707 |
0.1208 |
0.2659 |
0.9299 |
Informer + SA + LSH |
0.0724 |
0.1242 |
0.2692 |
0.9282 |
Informer + EWT + SA + Grid |
0.0595 |
0.1146 |
0.2440 |
0.9410 |
Informer + EWT + SA + LSH |
0.0710 |
0.1205 |
0.2665 |
0.9296 |
Figure 8. Comparison of LSH and GBC in various models
图8. 不同指标下模型间的LSH与GBC对比
由图8中所示,我们使用柱状图来更清晰地表现在四种不同的模型下GBC与LSH的评价指标改进情况。首先是评价指标MSE表示了模型的整体误差水平,我们可以看出在各种模型下均是GBC能够获得更低的值。Informer,Informer + EWT,Informer + SA,Informer + EWT + SA中,GBC比LSH分别低了6.09%,1.99%,2.41%,19.32%,由以上数据可得,在完整的混合模型中GBC的整体误差水平的改进表现最为明显。第二个评价指标为MAE,表示了模型的稳定性,四个模型下,GBC比LSH分别低了−3.61%,9.65%,2.81%,5.14%,由以上数据可得,在仅有EWT的混合模型中GBC的稳定性改进表现最好,而在Informer基础模型下,LSH能获得更好的稳定性。第三个评价指标为RMSE,表示了模型的综合误差水平,GBC比LSH分别低了2.99%,11.90%,1.24%,9.22%,由以上数据可得,依旧是在仅有EWT的混合模型中,GBC的综合误差的改进表现最好,其次就是在完整混合模型中的表现。最后一个评价指标为
,表示了模型的拟合优度,GBC比LSH分别高了0.5%,1.91%,0.18%,1.22%,由以上数据可得,与RMSE结果相似,仅有EWT的情况下模型解释数据变异能力的改进效果最好,其次是完整模型。
6. 总结与展望
6.1. 总结
本文提出了一种改进的基于Informer的光伏发电预测混合模型,结合了经验小波分解(EWT)、基于网格的聚类方法(GBC)与模拟退火优化算法(SA)。本文的研究从数据预处理、特征分解、模型改进及优化、模型训练与验证等多个方面进行了详细分析。
与Informer模型相比,Informer + EWT + GBC + SA的评价指标MSE,MAE,RMSE分别降低了51.34%,41.85%,30.24%,
提升了7.07%。在单改进方法的权重中可以通过实验数据得知,SA的改进权重最高,即相较于EWT与GBC,SA对模型的改进效果最为明显。提出的Informer + GBC + EWT + SA模型在多个实验对比中表现出优异的性能,MSE、MAE,RMSE和均取得显著提升,充分验证了模型改进的可行性与优越性。
本文研究为光伏发电功率预测领域提供了一个新的工具,具有重要的理论和实用价值。在理论上,本研究中描述的模型拓宽了光伏发电功率预测的研究领域。在实际应用中,提高光伏预测的准确性有利于提高太阳能的利用率。同时,它还能减少发电厂因限电造成的损失,提高收益率。同时也展示了混合模型在解决复杂时间序列预测问题中的潜力。本文提出的Informer + GBC + EWT + SA模型在光伏预测方面具有优势。研究结果表明,Informer + GBC + EWT + SA模型具有更高的预测精度和解释数据变异的能力。
6.2. 展望
尽管本文模型在性能上取得了显著提升,但仍存在以下几点不足和未来改进方向:本文模型主要针对单一站点的光伏发电数据进行验证,未来可尝试在多站点数据上测试模型的适用性,以提高模型的通用性。在数据特征选择方面,可结合更多影响光伏发电的外部因素(如地理特征、云层分布)进行建模,进一步提升预测精度。尽管本文改进了Informer模型的效率,但多特征输入与参数优化增加了计算复杂度。未来可探索更轻量化的改进方案,兼顾性能与效率。随着光伏发电系统和气象条件的变化,数据分布可能发生变化。优化模型,使其能够动态适应数据变化,提高实时预测能力。
本文的研究成果主要验证于实验数据,未来可尝试将模型应用于实际光伏电站的发电调度系统,评估其在实际运行中的稳定性与经济效益。通过对模型进一步优化与扩展,本文研究有望为光伏发电预测及智能电网调度提供更加精准和高效的解决方案,助力新能源的可持续发展。