基于CNN-LSTM-Attention模型的新能源发电量预测与孤立森林算法的风险检测分析
New Energy Power Generation Prediction Based on CNN-LSTM-Attention Model and Risk Detection Analysis of Isolation Forest Algorithm
摘要: 文章主要探讨了一种将卷积神经网络、长短时记忆网络以及注意力机制相结合的方法在新能源发电量预测中的应用及其有效性。随着新能源发电量受外部环境影响而表现出较大波动性和复杂性,传统预测模型难以全面捕捉其中的复杂模式和长期依赖性。因此,文章提出了一个集成多种深度学习方法的组合模型(CNN-LSTM-Attention模型),该模型首先通过卷积层提取数据中的局部特征,随后利用长短时记忆网络建模时间序列的长期依赖关系,最后通过注意力机制增强对重要信息的关注度。实验选取了2024年1月1日至6月30日期间的甘肃省风力发电和水力发电数据,进行了特征提取和模型训练。结果显示,相较于单独使用卷积神经网络或长短时记忆网络,结合了注意力机制的组合模型在多个评估指标上均表现出更高的预测准确性和更好的拟合效果。此外,还引入了孤立森林算法对预测误差进行异常值检测,并结合风险等级进行了详细的分类分析,进一步验证了该模型在实际应用中的有效性。本研究为新能源发电系统的预测和管理提供了一种新思路和方法,有助于提高系统运行的可靠性和安全性。
Abstract: This paper mainly discusses the application and effectiveness of a method combining convolutional neural networks, long short-term memory networks, and attention mechanisms in new energy power generation predictions. As new energy generation is affected by the external environment and shows great volatility and complexity, it is difficult to fully capture complex patterns and long-term dependencies using traditional forecasting models. Therefore, this paper proposes a combined model integrating multiple deep learning methods (CNN-LSTM-Attention model), which firstly extracts local features from the data through convolutional layers, then models the long-term dependencies of time series by long short-term memory networks and finally enhances the focus on important information through attention mechanisms. The experiment selected the wind power and hydroelectric power generation data of Gansu Province from January 1 to June 30, 2024, and carried out feature extraction and model training. The results show that compared with convolutional neural networks or long short-term memory networks alone, the combined model with attention mechanism has higher prediction accuracy and better fitting effect on multiple evaluation indicators. In addition, this paper introduces the isolation forest algorithm for outlier detection of the prediction errors and carries out a detailed classification analysis combined with the risk level, further verifying the effectiveness of the model in practical application. The research in this paper provides a new idea and method for the prediction and management of a new energy power generation system, which is helpful in improving the reliability and safety of the whole system operation.
文章引用:胡殿刚, 马寅, 庞晓东, 吴锋, 牛甄, 李灏, 姬艳秋, 冯文韬. 基于CNN-LSTM-Attention模型的新能源发电量预测与孤立森林算法的风险检测分析[J]. 图像与信号处理, 2025, 14(1): 45-61. https://doi.org/10.12677/jisp.2025.141005

1. 引言

截至2024年4月底,甘肃省电源总装机容量突破9000万千瓦,其中新能源占比超过六成,反映了全球能源结构转型的大趋势。近年来,风电与水电等可再生能源在甘肃省快速发展,新能源装机容量和发电量显著提升,节约了大量标准煤,彰显了甘肃在推动清洁、可持续能源方面的积极进展。同时,未来高比例可再生能源的并网将成为中国电力系统发展的必然趋势和重要特征[1]。然而,新能源发电量的波动性和不可预测性给电力系统的稳定运行带来了巨大的挑战[2]。特别是在甘肃这样风资源丰富的地区,风电与水电在总发电量中的比例逐渐增加,但其间歇性和随机性特点使得电力负荷预测的难度显著提升。此外,地理和气候条件的复杂多变使发电系统面临更大的不确定性。为应对这些挑战,许多学者已经投入到新能源发电的研究中,将机器学习或智能算法应用于实际场景,并取得了显著的研究成果[3]-[6]。因此,本文的研究目标是利用先进的深度学习模型,结合多源数据,对甘肃的新能源发电量(包括风力发电和水力发电)进行精确预测,以提高电网运行的稳定性和安全性,优化电力资源配置,并为未来新能源的进一步应用提供科学依据。在新能源发电量研究中,电力数据具有很强的时序性,因此产生了大量用于电力预测的时间序列模型[7]-[10]。然而,这些模型通常依赖单变量预测,难以应对更高维度的实际应用场景。近年来,深度学习在新能源发电预测上已取得较多成果[11]-[17]。其中,文献[11]-[13]利用CNN与LSTM的组合模型对电力进行预测,取得了较好的结果,但在处理高维特征或庞大数据集时,CNN与LSTM组合模型表现出一定的局限性。为此,文献[14]-[16]提出了基于CNN-LSTM的混合模型框架,并结合其他模型改进预测效果,以应对更复杂的新能源发电预测问题。文献[17]进一步提出了一种CNN-LSTM-AM网络用于风能预测,实验结果证明该模型在提高预测精度方面表现优异。基于注意力机制的混合模型对预测性能的提升具有显著效果[17]-[20]

在电力现货市场智能运维体系中,市场供需平衡是一个非常重要的运维观测指标,对市场健康稳定运行有着极为关键的作用,故需要对各类边界条件进行检测和提前预警。甘肃是一个新能源大省,其新能源占比逐年升高,对市场供需平衡的影响也不断扩大,在运维系统中,需要对新能源发电电量进行预测,如有必要进行一定程度运维干预。本文为此基于上述研究提出了一种CNN-LSTM-Attention模型,用于甘肃省的新能源发电量预测,并结合孤立森林算法检测异常值。进一步地,本文通过异常值的离群程度划分风险等级,以便在运维中使用。

2. 深度学习模型原理

2.1. 卷积神经网络的原理与结构

卷积神经网络(Convolutional Neural Network, CNN)是一种专为处理具有网格结构数据(例如图像、时间序列)的深度学习模型。CNN通过卷积操作从输入数据中提取局部特征,其核心思想是通过卷积核在输入数据上滑动,识别出局部模式,并逐步组合成更高层次的特征表示。在时间序列数据分析中,CNN通过识别短期内的模式来帮助模型更好地理解数据。

CNN的结构是由许多个卷积层、池化层以及全连接层组合而成。如图1所示,CNN中卷积层善于提取数据的特征信息,利用卷积核完成对数据的特征提取。池化层通过减少相关性较差的特征来简化模型复杂性。全连接层简化数据处理的过程,将池化的数据转换为一维向量形式。

Figure 1. Basic flowchart of convolutional neural network

图1. 卷积神经网络基本流程图

2.2. LSTM原理和结构

LSTM模型在处理新能源发电预测中具有显著优势,特别适用于捕捉新能源发电中的复杂非线性和长时间依赖特性。新能源发电,诸如风力发电和水力发电,通常表现出显著的波动性和间歇性,这使得传统的预测模型难以准确捕捉其动态变化。而LSTM模型凭借其独特的长期记忆能力和门控机制,能够在处理这些波动性数据时,通过选择性地记忆关键时间点的信息,有效地避免传统模型中因数据波动和不稳定性导致的预测误差。此外,LSTM还能在长时间跨度内保持信息传递,确保对新能源发电量的预测更加精确和稳健。因此,LSTM模型在应对新能源发电预测中的不确定性和复杂性方面,展现出卓越的性能和适应性。

Figure 2. LSTM network architecture diagram

图2. LSTM网络结构图

LSTM模型的结构(见图2)通过遗忘门、输入门和输出门之间的协同作用,实现对时间序列数据的选择性记忆、更新和输出。遗忘门决定保留多少过去的信息,输入门控制当前输入如何影响细胞状态,而输出门则决定哪些信息将作为当前的输出。具体而言,遗忘门通过sigmoid函数生成的向量与前一时刻的细胞状态逐元素相乘,输入门则通过sigmoid函数和tanh函数共同确定更新后的细胞状态,输出门控制着最终的隐藏状态,它结合sigmoid函数和tanh函数调制后的细胞状态共同生成。sigmoid函数压缩输入到0到1之间,用于控制信息的过滤,而tanh函数将输入标准化到−1到1之间,确保状态更新和输出的范围合适。通过这些机制,LSTM能够有效地在长时间依赖的序列数据中进行信息处理。

遗忘门的主要作用是决定哪些信息从前一个时刻的细胞状态中被保留或遗忘。通过sigmoid函数计算,遗忘门生成一个在0到1之间的向量,控制遗忘的比例。具体公式为:

f t = s i g m o i d ( W f x x t + W f h h t 1 + b f ) (1)

其中遗忘门的输出 f t 与前一时刻的细胞状态 C t 1 逐元素相乘,以确定保留下来的信息。

输入门负责决定当前输入的信息如何更新到细胞状态中。首先,输入门通过sigmoid函数计算,确定要更新的信息部分,

i t = s i g m o i d ( W i x x t + W i h h t 1 + b i ) (2)

随后tanh函数对当前输入进行变换,生成新的候选状态信息,

g t = tanh ( W g x x t + W g h h t 1 + b g ) (3)

最后,输入门的输出和候选状态逐元素相乘,并与遗忘门的输出共同作用更新细胞状态,

C t = ( C t 1 ) i f t i + g t i i t i (4)

输出门控制哪些信息从细胞状态中输出,以作为当前时刻的隐藏状态。通过sigmoid函数,输出门决定细胞状态中哪些部分会影响输出,

o t = s i g m o i d ( W o x x t + W o h h t 1 + b o ) (5)

然后,tanh函数对更新后的细胞状态 C t 进行变换,生成的结果与输出门的输出 o t 逐元素相乘,形成最终的隐藏状态,

h t = o t i tanh ( C t i ) (6)

在公式(1)~(6)中, W f x , W i x , W c x , W o x 为权重矩阵, b f , b i , b c , b o 为偏置向量。

2.3. 注意力机制的原理和结构

注意力机制的优势在于它能动态调整模型的关注点,根据输入序列中各部分的重要性灵活选择信息,尤其在处理长序列数据时表现优异。相比之下,LSTM可能在长时间依赖时信息衰减。将注意力机制与LSTM结合使用,可以弥补LSTM的不足,增强对关键信息的捕捉。LSTM负责时间序列建模,而注意力机制则聚焦于最相关的信息,两者结合能够显著提高模型在复杂任务中的表现。

图3展示出注意力机制在处理序列数据时的工作过程,其中 x 1 , x 2 , , x n 为输入序列的各个元素, h 1 , h 2 , , h n 为输入序列每个元素对应的隐藏状态,一般由RNN或LSTM生成, α 1 , α 2 , , α n 为注意力权重,反映每个隐藏状态在最终输出结果中的重要程度。最终输出变量y的计算公式为:

y = i = 1 n α i h i (7)

Figure 3. Diagram of attention mechanism

图3. 注意力机制原理图

3. 建立CNN-LSTM-Attention模型

本文在第三节详细地探讨了CNN、LSTM以及注意力机制三种方法的基本原理与结构。尽管这些方法在处理非线性和长时间依赖的时间序列数据方面表现出了较好的性能,但在应对新能源发电量预测时所涉及的复杂时空特征时,单一方法可能难以全面覆盖其多样性与复杂性。因此,为了进一步提升预测的准确性和鲁棒性,有必要将这三种方法进行有机结合,从而弥补各自的不足,发挥其各自的优势。

图4所示为本文提出的CNN-LSTM-Attention模型,该模型集成了卷积神经网络、长短时记忆网络和注意力机制,专门设计用于应对新能源发电量预测的挑战。模型首先通过卷积层提取时间序列中的局部时空特征,接着利用层LSTM网络对时间序列中的长期依赖关系进行建模,并捕捉发电量的动态变化模式。Attention机制则进一步增强了模型对关键时间步的关注,从而确保在预测过程中对重要信息的充分利用。最后,模型通过全连接层对提取到的特征进行综合处理,输出高精度的预测结果。

Figure 4. Convolutional neural network-LSTM-attention mechanism model diagram

图4. 卷积神经网络-LSTM-注意力机制模型图

3.1. 特征提取的目标

在本次研究中,特征提取的目标是甘肃省风力发电和水力发电的数据。数据的时间范围为2024年1月1日至2024年6月30日,每15分钟记录一次发电量数据。为了捕捉发电量在较短时间内的变化趋势,采用了滑动窗口的方式进行特征提取。具体来说,将滑动窗口的大小设为4,这意味着每次提取的数据包含1小时内的4个数据点。再通过滑动窗口逐步滑动,对每小时的数据进行处理和特征提取。

3.2. 特征提取的方式及数学表达

在数据处理过程中,为了全面捕捉时间序列数据的统计特性,本文提取了以下六种特征:均值、标准差、偏度、峰度、最大值和最小值。这些特征能够从不同的角度描述发电量数据的中心趋势、波动性、对称性、极端值等情况,为之后建模提供多维度的输入信息。

1、对数据集中风力发电与水力发电的原始数据进行均值处理

对于时间序列数据来说,均值可以反映出某段时间内风力或水力发电的平均水平,有助于了解发电量的整体趋势。具体处理公式如下,

μ w i n d = 1 4 i = 1 4 x w i n d _ i (8)

μ w a t e r = 1 4 i = 1 4 x w a t e r _ i (9)

其中 μ w i n d μ w a t e r 分别为风力发电与水力发电均值处理后的结果, x w i n d _ i x w a t e r _ i 代表了任一小时内每隔15 min的实际发电量。

2、对数据集中风力发电与水力发电的原始数据进行标准差处理

σ w i n d = 1 4 i = 1 4 ( x w i n d _ i μ w i n d ) 2 (10)

σ w a t e r = 1 4 i = 1 4 ( x w a t e r _ i μ w a t e r ) 2 (11)

其中 σ w i n d σ w a t e r 分别为风力发电与水力发电的标准差处理结果。

3、对数据集中风力发电与水力发电的原始数据进行偏度处理

偏度反映了数据分布的对称性,正偏度表示数据分布偏向左侧,负偏度表示数据分布偏向右侧。具体处理公式如下,

S k e w n e s s w i n d = 1 4 i = 1 4 ( x w i n d _ i μ w i n d ) 3 σ w i n d 3 (12)

S k e w n e s s w a t e r = 1 4 i = 1 4 ( x w a t e r _ i μ w a t e r ) 3 σ w a t e r 3 (13)

其中 S k e w n e s s w i n d S k e w n e s s w a t e r 分别为风力发电与水力发电的偏度处理结果。

4、对数据集中风力发电与水力发电的原始数据进行峰度处理

峰度反映了数据分布的尖峰程度或厚尾程度,较高的峰度值表示分布具有尖峰和较长的尾部,较低的峰度值表示分布较为平坦。具体处理公式如下,

K u r t o s i s w i n d = 1 4 i = 1 4 ( x w i n d _ i μ w i n d ) 4 σ w i n d 4 3 (14)

K u r t o s i s w a t e r = 1 4 i = 1 4 ( x w a t e r _ i μ w a t e r ) 4 σ w a t e r 4 3 (15)

其中 K u r t o s i s w i n d K u r t o s i s w a t e r 分别为风力发电与水力发电的峰度处理结果。

5、对数据集中风力发电与水力发电的原始数据进行最大值处理

最大值反映了某段时间内风力或水力发电量的峰值,有助于分析发电系统的最大输出能力。具体处理公式如下,

x max , w i n d = max i = 1 , 2 , 3 , 4 ( x w i n d _ i ) (16)

x max , w a t e r = max i = 1 , 2 , 3 , 4 ( x w a t e r _ i ) (17)

其中 x max , w i n d x max , w a t e r 分别为风力发电与水力发电的最大值。

6、对数据集中风力发电与水力发电的原始数据进行最小值处理

最小值反映了某段时间内风力或水力发电量的最低值,有助于分析发电系统的最低输出能力。具体处理公式如下,

x min , w i n d = min i = 1 , 2 , 3 , 4 ( x w i n d _ i ) (18)

x min , w a t e r = min i = 1 , 2 , 3 , 4 ( x w a t e r _ i ) (19)

其中 x min , w i n d x min , w a t e r 分别为风力发电与水力发电的最小值。

4. 算例分析

在本算例中,使用甘肃省2024年1月1日至2024年6月30日期间的新能源发电数据作为研究对象。数据包括风电和水电的发电量,实际数据的检查间隔为15分钟。运维管理员根据新能源发电量的预测结果,分析新能源发电系统过程中可能会出现的风险情况,以及时做出调整。

4.1. 新能源发电量的分布情况

为了更好地理解甘肃省新能源发电量的分布特征,本文选择时间范围为2024年1月1日~2024年6月30日,新能源发电量(包括水力发电量和风力发电量)如图5所示。由于新能源发电量在不同时间段内可能存在显著波动,通过直方图分析有助于揭示数据的整体趋势、集中区域以及异常波动的情况,有助于完成后续使用CNN-LSTM-Attention模型的预测工作。

Figure 5. Wind power generation and hydropower generation in Gansu

图5. 甘肃风力发电量与水力发电量

从直方图分析可知,水力发电量呈现复杂的多峰分布,主要集中在2000至3000 MW和5000至6000 MW之间,且高于6000 MW的发电量较为罕见,形成右倾长尾分布;而风力发电量则表现为平滑的单峰分布,主要集中在4000至5000 MW之间,超过8000 MW的发电量出现频率较低。这些分布特征反映了甘肃省新能源发电量的显著波动性和集中性,对CNN-LSTM-Attention模型的应用提出了要求。水力发电量的多峰和长尾分布需要模型具备强大的非线性处理能力,而风力发电量的单峰分布则要求模型能够有效识别集中区域并预测发电量变化趋势。因此,结合CNN层提取局部特征、LSTM层处理时间序列依赖性及Attention机制关注关键特征,可以提升模型预测的准确性和鲁棒性,为未来建模提供了重要依据。

4.2. 模型设计与训练

本实验基于Anaconda开发平台,采用Python作为主要编程语言,并利用TensorFlow框架构建深度学习模型。实验的目标是利用CNN-LSTM-Attention模型对2024年1月1日至2024年6月30日间的新能源发电量进行预测,具体步骤如下:

1、数据准备与输入变量

根据第3.2.节中的描述,对新能源发电数据进行了预处理。数据集包括风电和水电的发电量,将数据集进行特征化处理,并按照8:2的比例划分为训练集和测试集。数据处理后,将公式(8)~(19)得到的特征数据作为输入变量,包括风电与水电的多维度特征。

2、模型训练

模型训练阶段,使用80%的数据作为训练集进行模型训练,优化器选择了Adam,设置了较低的学习率(0.0005)以确保模型训练的稳定性。模型训练过程中采用了150次迭代,每次迭代的批次大小为128。训练过程中,部分数据被用作验证集,以监控模型在不同迭代过程中的表现,并避免过拟合现象。

3、模型测试

训练完成后,使用剩余的20%数据作为测试集,评估模型的预测效果。采用均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)以及决定系数R2等指标对模型的预测性能进行评价,确保模型在测试集上的预测结果与真实值高度一致。此外,还通过绘制真实值与预测值、训练集与测试集的损失值等对比图来直观展示模型的预测效果。

4.3. 模型预测效果评价指标

在对本文所建立的LSTM模型进行训练与测试后,建立以下评价指标来衡量模型的预测效果,具体描述如下:

均方误差(MSE)是用于衡量预测值与真实值之间的平均平方差异,数值越小,模型预测精度越高。结合本文研究内容,给出的计算公式如下,

MSE = 1 n i = 1 n ( y ^ r e s _ e l e c , f u t y r e s _ e l e c , a c t ) 2 (20)

其中 y ^ r e s _ e l e c , f u t 是新能源发电量的预测值, y r e s _ e l e c , a c t 是新能源发电量的真实值,n为数据样本总数。

平均绝对误差(MAE)是指预测值与真实值之间的平均误差,结合本文研究的变量,给出计算公式如下,

MAE = 1 n i = 1 n | y ^ r e s _ e l e c , f u t y r e s _ e l e c , a c t | (21)

其中MAE的值越小说明预测越准确。

决定系数R2是一种用于评估回归模型拟合优度的统计量。它表示模型解释的方差占总方差的比例,通常取值范围为0到1。R2的值越接近1,说明模型的预测结果越接近实际观测值,即模型对数据的拟合效果越好,具体公式如下,

R 2 = 1 i = 1 n ( y ^ r e s _ e l e c , f u t y r e s _ e l e c , a c t ) 2 i = 1 n ( y ¯ r e s _ e l e c , a c t y r e s _ e l e c , a c t ) 2 (22)

其中 y ¯ r e s _ e l e c , a c t 为所有新能源发电量的平均值。

4.4. CNN-LSTM-Attention模型预测结果与性能综合分析

本算例基于公式(8)~(19)生成了12列特征数据,同时保留了原始的新能源发电数据,新数据集共包含13列特征数据。将该数据集中的13列变量作为输入特征,用于预测新能源的发电量。为了评估CNN-LSTM-Attention模型在新能源发电量预测中的表现,本文通过多种可视化手段对模型的预测结果、残差分析、箱线图和损失值变化进行了详细分析。

从预测结果与真实值的对比图(图6(a))来看,模型在大多数时间点能够准确跟踪真实值的波动趋势,特别是在中间值范围内,预测值与真实值几乎重合,表明模型具有较高的准确性。然而,在一些峰值和谷值处,预测值与真实值之间存在一定偏差,这可能反映了发电过程中的潜在风险,如设备异常或极端天气等因素。损失值随迭代次数变化如图6(b)显示,模型在训练过程中有效地学习了数据特征,且训练损失与验证损失迅速下降并趋于平稳,未出现明显过拟合,证明了模型的良好拟合能力和泛化能力。图6(c)箱线图则表明,预测值的分布与真实值相近,但存在一些离群点,这些可能代表了发电量的异常波动,进一步表明模型对极端事件具有一定的敏感性。通过分析这些离群点,运维人员可以及时识别潜在风险并优化应急预案,从而提升系统的可靠性。残差图(图6(d))中,大部分残差集中在零附近,说明模型总体预测准确,但也存在少量异常值,这些异常值可能是由于突发设备故障或环境因素引起的,运维人员可以通过检测和分析这些异常值,早期识别潜在风险,优化发电流程,保障设备稳定运行。

(a) Plot of predicted versus true values预测值与真实值对比图

(b) Model loss versus iterations模型损失与迭代次数

(c) Box plot of actual and predicted values真实值与预测值的箱线图

(d) Distribution of residuals and outliers based on time series analysis基于时间序列分析的残差与异常值分布

Figure 6. Simulation prediction results and outlier analysis

图6. 仿真预测结果与异常值分析

综合图6的分析,CNN-LSTM-Attention模型在新能源发电量预测任务中展现了较为优异的性能。模型在多数情况下能够准确预测发电量,并且损失值曲线表明模型在训练过程中具有良好的收敛性。然而,模型在面对发电量的极端波动时,尽管预测精度可能稍有降低,但这些偏差可为运维过程中的风险检测和风险等级分析提供重要参考。这为电站的管理和维护工作提供了宝贵的数据支撑,有助于提高新能源发电系统的安全性和可靠性。

4.5. 模型对比结果

本次实验对比了LSTM、CNN-LSTM以及CNN-LSTM-Attention三种模型在时间序列预测任务中的表现。尽管由于数据值的数量级较大,导致各项指标的数值较高,但三个模型训练集的损失值都较小,且与测试集的拟合效果较好。

表1中可以看出,CNN-LSTM-Attention模型在MSE、RMSE、MAE和R2四个评价指标上均优于LSTM和CNN-LSTM模型,表现出更低的误差和更高的拟合度。这表明,通过结合CNN的特征提取能力、LSTM的时间序列处理能力,以及Attention机制对关键特征的关注,CNN-LSTM-Attention模型能够更有效地捕捉数据中的重要信息,从而提升预测的准确性和稳定性。

Table 1. Comparison of predictive performance of LSTM, CNN-LSTM and CNN-LSTM-Attention models

1. LSTM、CNN-LSTM和CNN-LSTM-Attention模型的预测性能比较

LSTM

CNN-LSTM

CNN-LSTM-Attention

MSE

240766.42

220142.85

178464.56

MAE

349.66

353.67

299.90

R2

0.9842

0.9856

0.9883

5. 异常值检测——孤立森林

本文在对CNN-LSTM-Attention模型的预测结果进行深入分析后,接下来将重点转向对异常值的检测与风险等级的评估。本部分将基于模型预测的测试集数据,采用孤立森林(Isolation Forest)算法进行异常值检测,随后结合风险等级进行了详细的分析,并通过风险等级的划分来评估发电系统的潜在风险。本文分析的数据区间为2024年5月25日至2024年6月30日,使用的数据集为模型预测中的测试集数据。通过对这些数据的分析,可以更准确地评估模型在实际应用场景中的表现,并为发电系统的运维提供有效的风险预警。

5.1. 孤立森林算法及其可行性分析

孤立森林是一种基于决策树的无监督学习算法,专门用于异常值检测。该算法通过随机选择特征和分割点生成森林(多个决策树),在树中孤立的数据点越早被分割,则其越有可能是异常值。孤立森林的优势在于其对高维数据的适应性和高效性,且无需对数据分布做出假设。

5.2. 孤立森林算法原理与可行性分析

孤立森林是一种专门用于异常值检测的无监督学习算法,其基本思想是通过“孤立”数据点来识别异常值。相比其他基于密度或距离的方法,孤立森林利用随机选择特征和分割点构建决策树,并基于树的深度来衡量数据点的异常性。孤立森林的独特优势在于其高效性和对高维数据的良好适应性。

1) 孤立森林通过以下步骤检测异常值:

步骤一:随机采样与建树。从训练数据中随机抽取样本,构建一个决策树的森林,每个决策树的节点通过随机选择特征和随机阈值进行分割。树的深度 h ( x ) 代表一个数据点被孤立所需的步数。

步骤二:计算路径长度。对每个决策树,计算数据点在树中的路径长度 h ( x ) ,即从根节点到达叶节点所经过的分割次数。对于所有树,计算平均路径长度 E [ h ( x ) ] ,路径越短,数据点越容易被孤立,越有可能是异常值所在处。

步骤三:计算异常分数。通过所有树的平均路径长度计算每个样本的异常分数,得分越高表明样本越可能是异常点,异常分数 s ( x , n ) 定义为

s ( x , n ) = 2 E [ h ( x ) ] c ( n ) (23)

其中 c ( n ) 是与数据集大小n相关的调整常数,通常被定义为

c ( n ) = 2 H ( n 1 ) 2 ( n 1 ) n (24)

其中 H ( i ) 是第i项的调和数。

异常分数 s ( x , n ) 的取值范围是0~1,当 s ( x , n ) 越接近1时,表明数据点x是异常值的可能性更大。

2) 算法可行性与风险等级分析

本文采用孤立森林算法对新能源发电残差进行异常检测,以识别发电量预测与实际值之间的显著偏差,进而发现潜在运维风险。孤立森林算法凭借其对异常值的敏感性和对高维数据的处理能力,能够有效应对复杂且不规则的发电数据。检测到的异常残差被分配到较高的风险等级,而正常残差则划分为较低风险等级,帮助运维人员更好地识别和管理潜在风险。通过这种方法,结合异常值与风险等级的关联,能够更精准地评估和应对可能的运维问题。具体的风险等级设定如下。

表2列出根据残差大小对新能源发电系统的风险等级划分以及相应的运维应对措施。残差越大,表明系统预测与实际发电量之间的偏差越大,风险等级也越高。对于低风险(0级和1级),只需进行常规监控和简单检查,而对于中等到极高风险(2级到4级),则需要进行详细检查和调整,必要时启动应急措施以保障系统的安全运行。通过风险等级的设定,运维人员能够更好地识别和应对潜在的运行风险。

Table 2. Risk level division in the operation and maintenance system

2. 运维系统风险等级划分

残差值范围

风险等级

运维应对措施

[−1000, 1000]

0级(正常)

无需采取额外措施,日常监控即可

[−1300, −1000]或[1000, 1300]

1级(低风险)

检查环境参数或负荷情况,确保系统在轻微波动下仍能稳定运行

[−1800, −1300]或[1300, 1800]

2级(中等风险)

检查相关设备,评估是否存在性能问题或负荷压力,并采取必要的调整措施,如优化调度或调整设备运行参数

[−2000, −1800]或[1800, 2000]

3级(高风险)

检查系统状态,识别并修复可能的故障或调度问题。同时监测

外部环境,评估是否存在进一步加剧风险的因素

超出[−2000, 2000]

4级(极高风险)

全面排查设备,调整或停止运行存在风险的设备,并对外部环境的监测频率进行提升

图7中可以看到,残差的分布情况与其对应的风险等级有着密切的联系。大部分残差处于0级和1级风险等级,这意味着大部分时间段内预测结果与实际发电量之间的偏差较小,系统运行相对平稳。但在某些时段出现了较高的风险等级(如3级和4级),这提示了潜在的系统异常或突发事件。

Figure 7. Scatter plot of residuals and risk levels based on isolation forest algorithm

图7. 基于孤立森林算法的残差与风险等级散点图

图8展示不同风险等级的频率分布。从图中可以看出,绝大多数数据点属于0级和1级风险等级,占据了总样本的大部分,表明系统大部分时间内运行平稳,预测误差较小。然而,2级、3级和4级风险等级的数据点虽占比不高,但对于系统的安全运行而言却极为重要。值得注意的是,4级风险等级的频率虽然较低,但它代表了极端的异常情况,可能导致系统运行中断或设备损坏。因此,这些高风险等级的频率分布对于风险管理具有重要参考价值。通过监控这些高风险等级的出现频率,运维人员可以提前预判潜在的危险,并制定应急预案。

Figure 8. Frequency distribution of risk levels

图8. 风险等级的频率分布

图9展示了不同时间内的风险等级变化情况。通过分析不同日期的风险等级分布,可以识别出高风险等级集中出现的时间段。例如,某些日期内风险等级3级和4级的频率显著增加,这可能与当日的外部环境条件或内部系统状态的波动相关。这些日期的风险等级分布有助于识别潜在的模式或趋势。例如,如果某些高风险等级集中在特定日期或时段,可能提示我们在这些时间内存在特定的外部环境因素(如天气变化、负荷波动)或内部操作因素(如设备维护或系统更新)导致了系统运行的异常波动。

Figure 9. Frequency of risk levels by date

图9. 按日期统计的风险等级频率

Figure 10. Risk level classification table based on residual analysis

图10. 基于残差分析的风险等级分类表格

图10中的表格通过图片形式直观展示了不同时间点的风险等级数据,便于运维人员快速识别高风险时间段并采取相应措施。图内表格共分为四个栏,每个栏包含两列信息:“时间”列表示具体的时间点,“风险等级”列显示该时间点对应的风险级别。表格数据的来源是通过孤立森林算法对时间序列数据进行残差分析,检测出的异常值及其对应的风险等级。具体而言,表格按照时间顺序记录了检测到的异常值,并根据异常值的程度,分为1到4个等级进行标记,1级风险表示低风险,而4级则表示高风险。

在2024年5月29日,06:30:00时,风险等级为2,表示检测到较为显著的异常,提示可能存在系统风险;而07:30:00时,风险等级为4,表示异常更为严重,运维人员需要重点关注并分析可能的问题,如传感器故障或数据传输错误。通过这种按时间点展示风险等级的方式,为系统监控和维护提供了重要参考。通过分析图7至图10,孤立森林算法能够有效识别新能源发电过程中的潜在风险,且风险等级的可视化为运维提供了有力支持。这有助于提升系统的可靠性和安全性,确保新能源发电的稳定运行。

6. 结论

本文通过构建和评估CNN-LSTM-Attention模型,全面探讨了该模型在新能源发电量预测中的优势和应用潜力。通过对比LSTM、CNN-LSTM以及CNN-LSTM-Attention模型的预测性能,结果显示,CNN-LSTM-Attention模型在处理复杂的时间序列数据时,表现出更高的精度和更好的泛化能力。具体来说,该模型在MSE、RMSE、MAE等关键指标上均优于其他对比模型,表明其在捕捉新能源发电数据的非线性特征和长时间依赖性方面具有明显的优势。

此外,本文通过孤立森林算法对甘肃省新能源发电系统的模型预测残差进行了异常值检测,并结合风险等级进行了深入分析和分类。这一方法为甘肃省新能源发电系统的运维提供了重要的安全保障,有助于运维人员及时识别和应对潜在的风险。结合甘肃省近年来新能源装机容量的大幅增长以及发电量的显著提升,本文的研究成果为该地区的清洁能源管理提供了科学依据。然而,尽管模型在预测精度和异常检测方面表现出色,但在处理极端数据波动时仍存在一定的局限性。未来的研究将聚焦于优化模型结构,纳入更多外部因素,如复杂气象条件和电力负荷波动,以进一步提高预测精度和模型的鲁棒性。

特别是在甘肃省这样的新能源发展快速地区,模型与实际运维系统的结合应用在大规模数据场景下尤为重要。因此,本文建议进一步扩大研究范围,将优化后的模型应用于甘肃省新能源发电系统的各个环节,从而增强系统的稳定性和管理的高效性。通过不断完善模型和方法,本文的研究将为甘肃省新能源发电系统的持续稳定运行、降低风险以及实现更高效的能源管理提供强有力的支持,这对甘肃省的清洁能源发展具有重要意义,也为新能源管理积累了宝贵经验。

基金项目

本文由国网甘肃省电力公司科技项目“基于长周期运行的双边现货市场全链条智能技术支持及运维关键技术研究及应用”(522722240008)资助。

参考文献

[1] 康重庆, 姚良忠. 高比例可再生能源电力系统的关键科学问题与理论研究框架[J]. 电力系统自动化, 2017, 41(9): 2-11.
[2] 郭军红, 王小萱, 汪月新, 等. Copula分位数回归方法在风电超短期出力预测上的应用[J]. 工程科学学报, 2024, 46(10): 1921-1929.
[3] 赵勇. 基于机器学习的风力发电现场异常检测的应用研究[J]. 价值工程, 2024, 43(23): 120-123.
[4] Shen, H., Zhang, H., Xu, Y., Chen, H., Zhang, Z., Li, W., et al. (2024) Two Stage Robust Economic Dispatching of Microgrid Considering Uncertainty of Wind, Solar and Electricity Load along with Carbon Emission Predicted by Neural Network Model. Energy, 300, Article ID: 131571.
https://doi.org/10.1016/j.energy.2024.131571
[5] Yang, H. and Schell, K.R. (2021) Real-Time Electricity Price Forecasting of Wind Farms with Deep Neural Network Transfer Learning and Hybrid Datasets. Applied Energy, 299, Article ID: 117242.
https://doi.org/10.1016/j.apenergy.2021.117242
[6] Du, X., Lang, Z., Liu, M. and Wu, J. (2024) Regression Analysis and Prediction of Monthly Wind and Solar Power Generation in China. Energy Reports, 12, 1385-1402.
https://doi.org/10.1016/j.egyr.2024.07.027
[7] Bilgili, M. and Pinar, E. (2023) Gross Electricity Consumption Forecasting Using LSTM and SARIMA Approaches: A Case Study of Türkiye. Energy, 284, Article ID: 128575.
https://doi.org/10.1016/j.energy.2023.128575
[8] 张华强. 基于时间序列的深度学习光伏发电模型研究[J]. 中国高新科技, 2024(6): 86-87+110.
[9] 汪鼎皓. 基于长短时记忆神经网络的风功率预测方法研究[D]: [硕士学位论文]. 长春: 长春工业大学, 2023.
[10] Eldali, F.A., Hansen, T.M., Suryanarayanan, S. and Chong, E.K.P. (2016) Employing ARIMA Models to Improve Wind Power Forecasts: A Case Study in ERCOT. 2016 North American Power Symposium (NAPS), Denver, 18-20 September 2016, 1-6.
https://doi.org/10.1109/naps.2016.7747861
[11] Malakouti, S.M., Karimi, F., Abdollahi, H., Menhaj, M.B., Suratgar, A.A. and Moradi, M.H. (2024) Advanced Techniques for Wind Energy Production Forecasting: Leveraging Multi-Layer Perceptron + Bayesian Optimization, Ensemble Learning, and CNN-LSTM Models. Case Studies in Chemical and Environmental Engineering, 10, Article ID: 100881.
https://doi.org/10.1016/j.cscee.2024.100881
[12] Zhang, S., Chen, R., Cao, J. and Tan, J. (2023) A CNN and LSTM-Based Multi-Task Learning Architecture for Short and Medium-Term Electricity Load Forecasting. Electric Power Systems Research, 222, Article ID: 109507.
https://doi.org/10.1016/j.epsr.2023.109507
[13] Agga, F.A., Abbou, S.A., Houm, Y.E. and Labbadi, M. (2022) Short-Term Load Forecasting Based on CNN and LSTM Deep Neural Networks. IFAC-PapersOnLine, 55, 777-781.
https://doi.org/10.1016/j.ifacol.2022.07.407
[14] Agga, A., Abbou, A., Labbadi, M. and El Houm, Y. (2021) Short-Term Self Consumption PV Plant Power Production Forecasts Based on Hybrid CNN-LSTM, Convlstm Models. Renewable Energy, 177, 101-112.
https://doi.org/10.1016/j.renene.2021.05.095
[15] Ghimire, S., Deo, R.C., Casillas-Pérez, D., Salcedo-Sanz, S., Sharma, E. and Ali, M. (2022) Deep Learning CNN-LSTM-MLP Hybrid Fusion Model for Feature Optimizations and Daily Solar Radiation Prediction. Measurement, 202, Article ID: 111759.
https://doi.org/10.1016/j.measurement.2022.111759
[16] 马良玉, 吕若萌. 用SSA优化CNN-LSTM-SEnet预测模型实现风电机组故障预警[J]. 电力科学与工程, 2024, 40(6): 1-10.
[17] Sun, Y., Zhou, Q., Sun, L., Sun, L., Kang, J. and Li, H. (2024) CNN-LSTM-AM: A Power Prediction Model for Offshore Wind Turbines. Ocean Engineering, 301, Article ID: 117598.
https://doi.org/10.1016/j.oceaneng.2024.117598
[18] Ma, Z. and Mei, G. (2022) A Hybrid Attention-Based Deep Learning Approach for Wind Power Prediction. Applied Energy, 323, Article ID: 119608.
https://doi.org/10.1016/j.apenergy.2022.119608
[19] Du, J., Zheng, J., Liang, Y., Liao, Q., Wang, B., Sun, X., et al. (2023) A Theory-Guided Deep-Learning Method for Predicting Power Generation of Multi-Region Photovoltaic Plants. Engineering Applications of Artificial Intelligence, 118, Article ID: 105647.
https://doi.org/10.1016/j.engappai.2022.105647
[20] Xu, H., Hu, F., Liang, X., Zhao, G. and Abugunmi, M. (2024) A Framework for Electricity Load Forecasting Based on Attention Mechanism Time Series Depthwise Separable Convolutional Neural Network. Energy, 299, Article ID: 131258.
https://doi.org/10.1016/j.energy.2024.131258

Baidu
map