A Hybrid Model for Solar Power Prediction Based on SSA Optimization
In this paper, solar power generation power is predicted by establishing a hybrid model for solar power generation based on the optimisation of Sparrow Search Algorithm (SSA). In the first place, the Improved Complete Ensemble Empirical Mode Decomposition with Adaptive Noise (ICEEMDAN) technique is utilized for preprocessing solar power generation data, decomposing the original data into Intrinsic Mode Functions (IMFs) and residuals to effectively remove noise and non-stationary components. Subsequently, the preprocessed IMFs and residual data are input into a Bidirectional Long Short-Term Memory network (BiLSTM) for modeling, with further steadily learning for long-term dependencies achieved through ODE-LSTM technology. To enhance the performance of the predictive model, SSA is employed for hyper parameter optimization. Experimental results demonstrate that the SSA-optimized ODE-BiLSTM model outperforms traditional ARIMA, standalone LSTM, and Random Forest models in terms of Mean Squared Error (MSE), Mean Absolute Error (MAE), and R-squared (R²) metrics, exhibiting superior predictive accuracy and stability. This study confirms the potential of hybrid models and optimization algorithms in the field of solar power generation forecasting, providing robust support for efficient management of renewable energy within smart grids.
Empirical Mode Decomposition
党的十九届六中全会提出,聚焦生态文明建设,贯彻新发展理念,制定严格的环境保护制度法规,坚守人与自然和谐共生的底线,在针对我国能源禀赋形成的刚性约束之下,以协调为内生特点,将绿色视作今后发展的普遍形态,不断推动国内经济发展模式朝着低碳绿色的方向前进,实现我国的“双碳”目标
国内外光伏发电量预报技术主要可分为如下3类
一是仿真预报法,利用太阳总辐射的预报值和光伏发电模拟模型
Manoja Kumar Behera等人(2018)采用优化的极限学习机(ELM)技术
Zhuang Wei等(2024)提出了一种结合图卷积网络(GCN)和Informer的新型预测框架,用于中期光伏发电预测
这些论文共同表明,综合先进的机器学习技术与优化算法,可以显著提高太阳能等新能源的短期预测精度,为智能电网中的能源管理提供有力支持。
改进的完全经验模态分解(ICEEMDAN)技术由Marcelo A. Colominas等人在2014年提出
1. 通过EMD确定局部平均值的实现:
其中i是添加的噪声序号,s是原始信号,si是待分解的信号,wi表示白噪声,E1(wi)表示白噪声的第一分量。
2. 计算第一次残差R1:
3. 计算第一个模态IMF1:
4. 计算第二次残差和第二个模态:
5. 计算第k次残差和模态:
6. 对于后续的阶段,重复步骤4。
总的来说,ICEEMDAN强有力的改进了传统EMD分解最终趋势含有残余特征,在一个分解模式中有不同尺度震荡等缺陷,它通过加入白噪声来克服传统EMD方法中的问题,采用多个步骤迭代计算出多个内禀模态函数(IMF)和残差,逐步分解信号以分析其内在的频率特征。
麻雀搜索算法(Sparrow Search Algorithm,简称SSA)是一种于2020年提出的优化算法
在一个维的解空间中,每只麻雀的位置可以表示为 ,其适应度值用 来表示。假设麻雀的总数量为,在每一代中会选择表现最优的
只麻雀作为生产者。而剩下的 只麻雀则扮演拾荒者的角色。在该算法中,个体适应度值较高的麻雀在寻找食物时会比其他麻雀更具优势。生产者通常能够找到丰富的食物,并且为拾荒者提供方向。因此,在每次迭代中,生产者位置的更新遵循以下公式:
其中,Xij表示第i只麻雀在第j维度中的位置;t代表当前迭代次数; 是一个随机数,取值范围为 ; 是一个常数; 和ST分别代表警报值和安全阈值,其中 , ;Q是一个随机分布值;L是一个 的矩阵,所有元素都为1。如果 小于
,说明没有捕食者威胁,生产者会进行更广泛的搜索;如果 大于等于 ,则说明有麻雀发现捕食者并发出警报,促使整个种群前往更安全的区域觅食。拾荒者的位置更新则由以下公式确定:,
其中, 表示当前全局最差的位置; 表示第 次迭代时生产者的最佳位置;A是一个 的矩
阵,其元素为随机选择的1或 ,且需满足 。如果 ,则表示该拾荒者适应度较低,
因未获取到足够的食物而饥饿,此时需要迁移到其他地方觅食。
当麻雀察觉到危险时,会放弃当前食物并进行预警行为,其位置更新公式为:
,
其中,随机测度 ; 是服从正态分布的步长控制参数,平均值为0; 是一个最小常数,防止分母为零的错误; 表示当前全局最佳位置; 代表当前麻雀个体的适应度值; 和 分别是当前全局最差和最好的适应度值。
当 时,意味著麻雀位于种群的边缘,容易受到捕食者的攻击;而当 时,说明位于种群中央的麻雀已发现危险,为避免被捕食的风险,它们会尽量靠近其他麻雀。
在研究不规则采样的时间序列数据时,循环神经网络(RNN)是一种适合的工具。然而,当涉及到长时间依赖时,它们经常遇到梯度消失或爆炸的问题。这种现象同样影响到基于神经常微分方程的ODE-RNN模型。为了克服这一挑战,Mathias Lechner等人提出了一种创新的解决方案——ODE-LSTM
,
其中, 表示输人序列, 是RNN的隐藏状态, 为阻尼系数。时间滞后 决定了输人数据的采样时间。然而,由于在训练过程中梯度可能出现消失或爆炸,模型难以学习长时间依赖。解决方案是利用LSTM独特的门控机制,能够确保误差在记忆路径中保持一致的传播。其输人更新由以下公式定义:
。
输人门、遗忘门和输出门分别通过:
这些门控机制使得LSTM模型可以记住或遗忘输人信息。记忆单元和隐藏状态更新分别为:
为了应对时间序列中任意间隔的数据,ODE-LSTM使用自适应步长求解器来处理LSTM的输出状态:
,
ODE层的引人确保LSTM记忆和隐藏状态与连续时间架构相结合,能够更好地处理长时间依赖的学习任务。为分析不规则采样的复杂时间序列数据提供了一种稳健的解决方案。
首先使用改进的集合经验模态分解法(ICEEMDAN)对太阳能发电数据进行预处理。ICEEMDAN通过逐层分解信号,将原始数据分解为不同频率的固有模式函数(IMFs)和残余部分。各IMF分量代表不同的时间特征,保留原始数据的完整信息。通过这种方式可以有效地去除噪声和非平稳成分,保留关键趋势,然后将固有模式函数与本来筛选的特征整合,提高后续的预测精度。
然后经过预处理后的IMFs和残余数据作为输入,分别被送入双向长短时记忆网络(BiLSTM)进行建模。相比传统的LSTM,BiLSTM能够从前向和后向两个方向捕捉序列的时间依赖关系,获取更丰富的特征信息。这有助于捕获发电功率随时间变化的趋势和周期性特征,提升预测的准确性。为了解决双向LSTM在长时间依赖预测中的梯度消失或爆炸问题,研究使用ODE-LSTM将BiLSTM的输出融入连续时间架构。ODE-LSTM通过将隐状态的变化建模为常微分方程,可以稳定地学习长时间跨度的依赖关系。
为了优化模型性能并提升预测的准确性,对模型采用麻雀优化算法(SSA)进行超参数优化。SSA模拟麻雀的觅食和防御行为,通过种群之间的信息传递和个体巡游寻找最佳食物源,它可以有效寻找到ODE-BiLSTM的最佳超参数组合,使模型在预测太阳能发电功率时表现更为准确。
本文使用的数据集为“Solar Power Generation Data”,该数据集是由Kaggle平台用户Aniket Datar提供的公开数据集(
变量 |
描述 |
DATE_TIME |
记录数据的时间戳 |
PLANT_ID |
电厂标识符 |
SOURCE_KEY |
发电逆变器的标识符 |
DC_POWER |
逆变器产生的直流电功率 |
AC_POWER |
逆变器输出的交流电功率 |
DAILY_YIELD |
当天发电量 |
TOTAL_YIELD |
累计发电量 |
AMBIENT_TEMPERATURE |
环境空气温度 |
MODULE_TEMPERATURE |
太阳能模块温度 |
IRRADIATION |
接受到的太阳能辐照强度 |
数据预处理分为以下步骤,以确保数据质量和分析的有效性:
(1) 处理缺失数据:
由于数据逻㴜可能会对分析造成偏差,我们使用三次样条插值法来估算缺失的数据点。具体公式为:
,
其中, 和 是样条函数系数,这些系数通过已知数据点解算得到,以确保插值曲线在数据点间平滑过渡。
(2) 异常值处理:
对数据集进行异常值分析,识别可能由设备故障或数据记录错误引起的数据点。异常值通过IQR方法识别,定义为超出四分位数范围1.5倍IQR的值。异常值将被替换为相邻值的三次样条插值结果。
(3) 数据标准化:
为了消除不同量纲的影响,使用Z-score标准化方法对数据进行规范化处理。该公式为:
,
其中, 是原始数据点, 是平均值, 是标准差。此步骤后,所有特征值将转换为以0为中心,标准差为1的分布,便于后续模型分析。
为了确保模型在处理光伏发电影响因素时不受过度拟合的影响,提高其预测精度,并同时减少计算负担,特征选择显得至关重要。在这一过程中,我们需要有效地筛选出与预测变量相关性较高的特征。皮尔森系数法和斯皮尔曼系数法是两种常用的统计方法,用于分析两组变量之间的相关程度。斯皮尔曼系数法由于其适用于变量中含有定序数据的情况而广泛受到应用,而皮尔森系数则更适用于处理服从正态分布的数据。鉴于本文所涉数据并未显著服从正态分布,我们选择采用斯皮尔曼系数法来计算每个特征与预测变量之间的相关性。
,
通过绘制特征相关系数的热力图,我们可以清澌地观察到各个特征与预测变量之间的关联程度,如
首先使用改进的完全经验模态分解处理预测变量,分解出了11个IMF,通过残差分析,即在去除某些IMF后,分析剩余信号的特性,以确定这些IMF是否包含重要信息。如果剩余信号失去了重要的信息或特性,那么这些IMF可能是关键的。由此筛选了6个重要的IMF如
然后使用麻雀优化算法进行参数寻优,设置观察者和预警者概率分别为0.2,0.1,利用python编程求得最优参数如
Parameter |
value |
BiLSTM_layers |
3 |
BiLSTM_neurons_list |
{51, 87, 106} |
hidden_dim |
408 |
num_layers |
2 |
num_heads |
2 |
learning_rate |
0.0013750005425864223 |
通过python编程实现基于ODE-BiLSTM混合模型的结果,如
数量 |
MAE |
RMSE |
R2 |
ARIMA |
419.33 |
424.82 |
0.4565 |
LSTM |
287.69 |
309.94 |
0.4982 |
Random Forest |
233.92 |
241.79 |
0.5234 |
ODE-BiLSTM |
106.38 |
116.78 |
0.7527 |
基于SSA优化的太阳能发电混合模型功率预测研究在本文中得到了深入探讨和验证。首先,通过改进的完全经验模态分解(ICEEMDAN)技术对数据进行预处理,将其分解成多个固有模式函数(IMF)和残差,极大地提高了数据的预测准确性。然后,利用麻雀搜索算法(SSA)优化的ODE-LSTM模型对预处理后的数据进行建模。通过SSA的觅食和预警行为,成功找到了模型的最佳超参数组合,使预测模型在准确性和鲁棒性方面得到了显著提升。模型结果分析表明,本文提出的SSA优化的ODE-BiLSTM混合模型在均方误差(MSE)、平均绝对误差(MAE)和判定系数(R2)等指标上均优于传统ARIMA、单一LSTM及随机森林模型,展现出更高的预测精度和稳定性。本研究证实了混合模型和优化算法在太阳能发电预测领域的潜力,为实现智能电网中新能源功率的高效管理提供了有力支持。未来可以考虑进一步引入更多优化算法,并结合实际情况,进一步提高模型的泛化能力和适应性。
江苏省高等学校大学生创新创业训练计划项目(No. 202311117106Y)。
江苏高校品牌专业建设工程资助项目(数学与应用数学,PPZY2015B109)。