铁路客运量预测是铁路运输组织管理工作的重要基础和主要依据之一。本文建立多种分解–集成方法对全国铁路月度客运量进行预测分析。分别利用集合经验模态分解(EEMD)、奇异谱分解(SSA)和小波分解(WT)将原始序列进行分解,再分别使用季节差分移动自回归模型(SARIMA)模型和反向传播神经网络(BP)模型及其组合模型对分解后的子序列进行拟合、预测和集成。对比研究发现采用分解–集成方法有助于提高相关模型的预测准确性,且EEMD-SARIMA-BP组合模型在所有模型中预测效果最佳。 The forecast of railroad passenger volume is one of the important foundations and main bases of railroad transportation organization and management. In this paper, we establish multiple decom-position-aggregation methods to forecast and analyze the monthly passenger volume of national railroads. We use the ensemble empirical modal decomposition (EEMD), the singular spectrum de-composition (SSA) and the wavelet analysis (WT) respectively to decompose the original data series into several sub-series, then we process the forecast by fitting, forecasting and aggregating by the seasonal difference moving autoregressive model (SARIMA) model and back propagation neural network (BP) and their combined model of the sub-series, respectively. We find that the use of de-composition-aggregation methods helps to improve the prediction accuracy, and the combined EEMD-SARIMA-BP model has the best prediction effect among all models.
铁路客运量预测是铁路运输组织管理工作的重要基础和主要依据之一。本文建立多种分解–集成方法对全国铁路月度客运量进行预测分析。分别利用集合经验模态分解(EEMD)、奇异谱分解(SSA)和小波分解(WT)将原始序列进行分解,再分别使用季节差分移动自回归模型(SARIMA)模型和反向传播神经网络(BP)模型及其组合模型对分解后的子序列进行拟合、预测和集成。对比研究发现采用分解–集成方法有助于提高相关模型的预测准确性,且EEMD-SARIMA-BP组合模型在所有模型中预测效果最佳。
预测,铁路客运量,集合经验模态分解,奇异谱分解,小波变换,BP神经网络
Jianxi Liu, Yihong Zhao, Meili Liang
School of Mathematics and Statistics, Guangdong University of Foreign Studies, Guangzhou Guangdong
Received: Nov. 12th, 2022; accepted: Dec. 6th, 2022; published: Dec. 14th, 2022
The forecast of railroad passenger volume is one of the important foundations and main bases of railroad transportation organization and management. In this paper, we establish multiple decomposition-aggregation methods to forecast and analyze the monthly passenger volume of national railroads. We use the ensemble empirical modal decomposition (EEMD), the singular spectrum decomposition (SSA) and the wavelet analysis (WT) respectively to decompose the original data series into several sub-series, then we process the forecast by fitting, forecasting and aggregating by the seasonal difference moving autoregressive model (SARIMA) model and back propagation neural network (BP) and their combined model of the sub-series, respectively. We find that the use of decomposition-aggregation methods helps to improve the prediction accuracy, and the combined EEMD-SARIMA-BP model has the best prediction effect among all models.
Keywords:Forecast, Railroad Passenger Volume, Ensemble Empirical Model Decomposition, Singular Spectrum Decomposition, Wavelet Transform, BP Neural Network
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
铁路是国家重要交通基础设施及重大民生工程,关系着千千万万户的出行和国家经济发展 [
目前,我国许多学者对于铁路客运量预测的研究主要有传统计量和统计方法、人工智能方法和组合预测方法 [
近十几年来,我国学者就铁路客运量预测展开了多维度、多角度的探讨与研究,取得了许多宝贵的成果。但是由于铁路客运量本身的季节性较强及外部影响因素较多,许多方法仍存在不足和缺陷。在此基础上,进一步探讨铁路旅客运输量预测模式,探索更多方法的结合是否能为预测带来更高的准确性,本文首先采用季节时间序列模型(SARIMA)和BP神经网络模型对铁路月客运量进行预测,再采用集合经验模态分解(EEMD)、奇异谱分解(SSA)和小波分解(WT)三种分解方法对月客运量数据进行分解,结合SARIMA模型和BP神经网络模型进行预测。最后,通过预测结果比较上述方法的有效性与精确性。
具有下列结构的模型被称作差分自回归移动平均(Autoregressive Integrated Moving Average)模型,简称为ARIMA(p,d,q)模型 [
{ Φ ( B ) ∇ d x t = Θ ( B ) ε t E ( ε t ) = 0 , V a r ( ε t ) = σ ε 2 , E ( ε t ε s ) = 0 , s ≠ t E ( x s ε t ) = 0 , ∀ s < t (2.1)
式中, ∇ d = ( 1 − B ) d ; Φ ( B ) = 1 − ϕ 1 B − ⋯ − ϕ p B p 为平稳可逆ARMA(p,q)模型的自回归系数多项式; Θ ( B ) = 1 − θ 1 B − ⋯ − θ q B q 为平稳可逆ARMA(p,q)模型的移动平均系数多项式。
SARIMA模型来源于自差分回归移动平均模型(ARIMA),又称为季节乘积模型。在短期相关性和季节性影响的乘积关系中,拟合模型实际上为ARMA(p,q)和ARMA(P,Q)S相乘的结果。结合d阶趋势差分和以周期S为步长的D阶季节差分进行建模,乘法模型的构造如下列公式所示 [
∇ d ∇ S D x t = Θ ( B ) Θ S ( B ) Φ ( B ) Φ S ( B ) ε t (2.2)
其中 Θ ( B ) = 1 − θ 1 B − ⋯ − θ q B q , Φ ( B ) = 1 − ϕ 1 B − ⋯ − ϕ p B p , Θ S ( B ) = 1 − θ 1 B S − ⋯ − θ Q B Q S , Φ S ( B ) = 1 − ϕ 1 B S − ⋯ − ϕ P B P S ,该乘法模型简记为 ARIMA ( p , d , q ) × ( P , D , Q ) S 。
经验模态分解(EMD),是美国华裔科学家黄诺登博士于1998年提出的一种新的自适应信号时频域处理技术 [
为了从原始序列中分解出IMF,EMD的分解过程如下:
先将数据序列分段筛选出极大值和极小值点,上下极值点的包络线 e max ( t ) 和 e min ( t ) ,用三次样条曲线拟合出来,并计算上下包络线的平均值 m ( t ) 。设原始数据为 x ( t ) ,在 x ( t ) 中减去 m ( t ) 得到:
h ( t ) = x ( t ) − m ( t ) (3.1)
再根据预设判据判断 h ( t ) 是否为IMF,重复以上过程直到 h ( t ) 满足判据,则 h ( t ) 就是需要提取的IMF: C k ( t ) 。每得到一次IMF分量后从原信号中扣除,直到剩余部分 r n ( t ) 为单调的序列或者常数序列。这样原始序列可分解为:
x ( t ) = ∑ i = 1 N C i ( t ) + r n ( t ) . (3.2)
集合经验模态分解(EEMD),是为了解决EMD方法存在模态混叠等不足而提出的一种叠加高斯白噪声的多次经验模态分解。利用高斯白噪声具有频率均匀分布的统计特性,通过每次加入同等幅值的不同白噪声来改变信号的极值点特性,再对多次经验模态分解得到的相应IMF进行总体平均来抵消加入的白噪声,从而有效抑制模态混叠的产生。
EEMD分解的具体步骤 [
第一步,设定总体平均次数(集合数) m;
第二步,将在原始序列 x ( t ) 中加入高斯白噪声序列 ε i ( t ) , i = 1 , 2 , ⋯ , m 。
x i ( t ) = x ( t ) + ε i ( t ) . (3.3)
第三步,对含噪序列 x i ( t ) 分别进行EMD分解,分解各自IMF分量 C i j ( t ) , j = 1 , 2 , ⋯ , J 和残差分量 r i ( t ) 。
x i ( t ) = ∑ j = 1 J C i j ( t ) + r i ( t ) . (3.4)
第四步,对于所得到对应的IMF分量求均值。从而得到原序列的第k个IMF分量 c k ( t ) 和剩余分量 r ( t ) :
c k ( t ) = 1 m ∑ i = 1 m C i k ( t ) , r ( t ) = 1 m ∑ i = 1 m r i ( t ) (3.5)
第五步,原序列可分解为
x ( t ) = ∑ k = 1 m c k ( t ) + r ( t ) (3.6)
奇异谱分析(SSA) [
第一步,嵌入。将一维时间序列数据 y = ( y 1 , y 2 , ⋯ , y N ) 转化为其轨迹矩阵X:
X = ( x i j ) i , j = 1 L , K = ( y 1 y 2 ⋯ y K y 2 y 3 ⋯ y K + 1 ⋮ ⋮ ⋱ ⋮ y L y L + 1 ⋯ y N ) (4.1)
其中,L为选取的窗口长度, 1 < L < N , K = N − L + 1 。
第二步,奇异值分解。令 S = X X T ,对S进行奇异值分解后得到的其L个特征值 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ L ≥ 0
和其所有的正交特征向量 U 1 , U 2 , ⋯ , U L ,令 d = max { i , λ i > 0 } U 2 ,记 V i = X T U i λ i , i = 1 , 2 , ⋯ , d 。则矩阵X的
奇异值分解可以写成:
X = X 1 + X 2 + ⋯ + X d (4.2)
其中, X i = λ i U i V i T , λ i 是矩阵X的奇异值, U i 是左特征向量, V i 是右特征向量, ( λ i , U i , V i ) 称为矩阵X的第i个三重特征向量。
第三步,分组。以不同的提取成分作为依据,将 X i 分为m个不同的组 I 1 , I 2 , ⋯ , I m ,并将每组的矩阵相加。如第 I i 组包含的子集为 I i = { i 1 , ⋯ , i p } ,则
X I i = X i 1 + X i 2 + ⋯ + X i p (4.3)
而X相应分解为
X = X I 1 + X I 2 + ⋯ + X I m (4.4)
其中, X I j 的贡献率可表示为 ∑ i ∈ I j λ i / ∑ 1 ≤ j ≤ m , i ∈ I j λ i 。
第四步,重构。设Y为 L × K 维矩阵,矩阵元为 y i j , 1 ≤ y i j ≤ L , 1 ≤ j ≤ K 。定义 L * = min ( L , K ) , K * = max ( L , K ) , N = L + K − 1 , y i j * = { y i j , 若 L < K y j i , 若 L ≥ K ,则重构序列 G = ( g 0 , g 1 , ⋯ , g N − 1 ) 可通过下列式子计算获得:
g k = { 1 k + 1 ∑ m = 1 k + 1 y m , k − m + 2 * 若 0 ≤ k ≤ L * − 1 1 L * ∑ m = 1 L * y m , k − m + 2 * 若 L * ≤ k ≤ K * − 1 1 N − K * ∑ m = k − K * + 2 N − K * + 1 y m , k − m + 2 * 若 K * ≤ k ≤ N (4.5)
式(4.5)本质上是对矩阵 X i j 在对角线方向上求出 i + j = k + 2 各单元的平均,并求得相应的 g k 值,从而获得 X i j 的重组序列G。
小波变换(Wavelet Transform,缩写为WT),又称小波分析 [
小波分解是将某一小波基函数 ψ 做位移b后,再在不同尺度a下,与尚未分析的信号y做内积。上述过程可逆,其逆过程称作小波重构。小波分解和小波重构的表达式分别如下:
W y ( a , b ) = 〈 y ( t ) , Ψ a , b 〉 = | a | − 1 / 2 ∫ − ∞ + ∞ Ψ ( t − b a ) ¯ y ( t ) d t (5.1)
y ( t ) = K ∫ ∫ − ∞ + ∞ W y ( a , b ) | a | − 1 2 Ψ ( t − b a ) d a d b a 2 (5.2)
其中, W y ( a , b ) 为小波分解系数,a为伸缩因子,b为平移因子, Ψ a , b 为小波基函数, 〈 , 〉 为内积, y ( t ) 为数据, Ψ ¯ 是 Ψ 的共轭。
反向传播神经网络(Back Propagation Neural Network,简称BP神经网络)运用输入数据的训练让网络存在联想记忆,从而使得联想记忆发挥其预测能力。模型的主要结构分为输入层,隐含层,输出层。BP神经网络的结构如图1所示。信号通过输入层、隐含层向输出层的正向传播,误差的逆向传播,以及对预测的错误部分的误差调节,使得预测结果与预期输出不断逼近 [
各个层次的数学关系如下所示:
对于隐含层有:
y j = f ( n e t j ) , n e t j = ∑ i = 1 n v i j x i , j = 1 , 2 , ⋯ , m (6.1)
对于输出层有:
o k = f ( n e t k ) , n e t k = ∑ i = 0 m w i k y i , j = 1 , 2 , ⋯ , l (6.2)
一般情形下激活函数 f ( x ) 取 1 1 + e − x ,也可以根据需要取 1 − e − x 1 + e − x 。
图1. BP神经网络的结构
本文数据来自于国家统计局发布的月度数据报告中的铁路客运量当期值(万人)。本文选取1984年1月至2022年1月,共457条铁路月客运量数据进行建模和检验。图2中可以看出,铁路客运量当期量总体呈上升后近两年略有下降的趋势。由于新型冠状病毒疫情的爆发,2020年2月铁路客运量达到近十五年的最低值,铁路客运量仅有约3723万人。而后至2022年1月,铁路客运量的波动较大。
图2. 原始数据时序图
本文使用R语言程序对原始序列构建SARIMA模型对铁路月客运量进行预测。一阶差分后通过平稳性和白噪声检验。首先确定短期相关模型,利用模型 ARMA ( 2 , 4 ) 作为原始序列差分后得到的短时自相关信息模型。考虑到季节自相关特性的情况下,使用 ARMA ( 0 , 2 ) 12 模型拟合差分序列的季节自相关信息。因此,得到模型为 ARIMA ( 2 , 1 , 4 ) × ( 0 , 0 , 2 ) 12 。对拟合模型进行检验,结果显示该模型通过残差白噪声检验,因此拟合函数可以写为:
∇ x t ∇ 12 = 1 + 0.4000 B + 0.6108 B 2 − 0.2056 B 3 1 − 0.4628 B 2 ( 1 − 0.2849 B 12 − 0.3373 B 24 ) ε t .
将SARIMA模型拟合得到的结果与铁路月客运量的实际值进行对比,如图3所示。
图3. SARIMA预测结果对比图
初始化网络、训练和仿真是BP神经网络 [
将原始序列未经任何分解后直接通过上述设定的BP神经网络模型进行训练和仿真,得到的预测结果与实际值的对比如图4所示。
图4. SARIMA预测结果对比图
第一步,运用EEMD分解法对原始数据进行分解。Nstd是设置高斯白噪声的标准差,本文取0.2。NE是添加噪声的次数,本文设置为100。将加入白噪声序列的铁路月客运量的原始序列进行分解,得到7个IMF分量和1个剩余量,根据频率高到低的顺序将分解得到的分量排序,原始时间序列的波动特征成份由各自的波动代表,剩余量为无法分解的部分,如图5所示。
图5. EEMD分解后的IMF分量及剩余分量时序图
第二步,对EEMD分解后的7个IMF分量和残差项分别进行SARIMA时间序列预测。SARIMA模型定阶全部由R语言程序中forecast包中的auto.arima()函数所选取的AIC最小的模型。得到7个IMF和残差项的模型参数如表1所示。
ARIMA | SEASONAL | |||||
---|---|---|---|---|---|---|
p | d | q | p | d | q | |
IMF1 | 2 | 0 | 1 | 0 | 0 | 1 |
IMF2 | 4 | 0 | 2 | 0 | 0 | 1 |
IMF3 | 4 | 0 | 4 | 0 | 0 | 2 |
IMF4 | 1 | 0 | 0 | 1 | 0 | 0 |
IMF5 | 0 | 0 | 0 | 1 | 0 | 0 |
IMF6 | 0 | 2 | 0 | 0 | 0 | 0 |
IMF7 | 0 | 2 | 0 | 0 | 0 | 0 |
RES | 0 | 2 | 5 | 0 | 0 | 2 |
表1. 各分量对应的模型阶数
第三步,将EEMD分解后得到的7个IMF分量和残差项分别通过BP神经网络模型进行预测 [
通过对EEMD分解后的7个IMF分量和残差项分别通过SARIMA模型和BP神经网络预测模型进行预测后,以MAPE为指标,得到预测效果如表2所示。从表2中可以看出,对于IMF1、IMF2、IMF4、IMF5、IM6、IM7,BP神经网络的预测效果较好。对于IMF3,SARIMA模型具有更高的精度。而残差项两者的预测误差都很小。
IMF1 | IMF2 | IMF3 | IMF4 | IMF5 | IMF6 | IMF7 | RES | |
---|---|---|---|---|---|---|---|---|
EEMD-SARIMA | 131.29% | 37.56% | 4.01% | 32.80% | 139.59% | 2.74% | 1.39% | 0.00% |
EEMD-BP | 48.51% | 16.10% | 15.33% | 2.37% | 0.09% | 0.05% | 0.11% | 0.00% |
表2. 预测结果对比(MAPE)
最后,进行EEMD-SARIMA-BP组合预测。根据表2,对IMF3和残差项选取SARIMA模型进行预测,对其他分量选取BP神经网络方法进行预测,再将得到的预测的分量值叠加后进行组合预测。得到组合预测模型的MAPE为3.96%,提高了预测精度。
取2020年3月至2022年1月共23个月的铁路月客运量的值作为预测组,将原始序列直接采用SARIMA模型预测、直接采用BP神经网络模型预测、EEMD分解后分别采用SARIMA模型预测、EEMD分解后分别采用BP模型预测和EEMD分解后SARIMA和BP模型组合预测得到结果的MAE、MAPE、RMSE进行对比,得到表3。
BP | SARIMA | EEMD-SARIMA | EEMD-BP | EEMD-SARIMA-BP | |
---|---|---|---|---|---|
MAE | 5303.2003 | 3907.7889 | 2240.0609 | 935.9701 | 811.9572 |
MAPE | 31.93% | 23.51% | 13.39% | 4.35% | 3.96% |
RMSE | 6515.2181 | 5044.6015 | 2924.4861 | 1202.0687 | 1120.4639 |
表3. EEMD分解预测模型精度对比
第一步,采用Matlab实现奇异谱分解 [
图6. 低频序列
图7. 原始序列与分解后重构的时序图
第二步,对分解得到的低频和高频分量分别进行SARIMA模型建模,得到高低频分量的模型参数如表4所示。取低频项和高频项分别预测的2020年3月至2022年1月共23个月的铁路客运量的值进行对比,得到平均绝对百分误差MAPE的值分别为11.11%和95.02%。
第三步,分别对低频部分和高频部分进行BP神经网络时间序列预测。模型参数设置与前文相同。图8为低频部分的预测结果,图9为高频部分的预测结果。同样选取2020年3月至2022年1月的客运量实际值和预测值进行平均相对误差的比较,得到低频分量的MAPE为0.04%,而高频分量的MAPE为86.05%。
ARIMA | SEASONAL | |||||
---|---|---|---|---|---|---|
p | d | q | p | d | q | |
低频分量 | 4 | 2 | 1 | 1 | 0 | 2 |
高频分量 | 3 | 0 | 1 | 1 | 0 | 0 |
表4. 高低频分量的模型定阶参数
图8. 低频部分的BP预测结果
图9. 高频部分的BP预测结果
相对于奇异谱分解的SARIMA模型预测,分解后采用BP神经网络模型预测得到的高低频分量的误差都较小。因此分解后采用BP模型进行预测可以有效地减小误差,不需要进行组合预测。
取2020年3月至2022年1月共23个月的铁路月客运量的值作为预测组,将原始序列直接采用SARIMA模型预测、直接采用BP神经网络模型预测、SSA分解后分别采用SARIMA模型预测、SSA分解后分别采用BP模型预测得到结果的MAE、MAPE、RMSE进行对比,结果如表5所示。
BP | SARIMA | SSA-SARIMA | SSA-BP | |
---|---|---|---|---|
MAE | 5303.2003 | 3907.7889 | 3513.6369 | 2908.2811 |
MAPE | 31.93% | 23.51% | 23.11% | 15.65% |
RMSE | 6515.2181 | 5044.6015 | 4853.0374 | 3960.8071 |
表5. SSA分解预测模型精度对比
第一步,进行序列的小波分解与重构。由于没有标准划一的方法来选定小波基函数,因此本文经过尝试后选择具有正交性和紧支撑性 [
第二步,对小波分解及重构后得到的低频序列a3、高频序列d1、高频序列d2、高频序列d3分别进行SARIMA模型建模,得到4个分量的模型参数如表6所示。
第三步,将小波分解重构后得到的高低频数据BP神经网络训练和仿真。图12为经过小波分解重构后的序列进行分别进行BP神经网络预测叠加后的拟合图,可以看出拟合效果较好。
通过对小波分解重构后的4个序列分别通过SARIMA模型和BP模型进行预测后,同样选取2020年3月至2022年1月的客运量实际值和预测值进行平均相对误差的比较,得到预测效果如表7所示。从表7中可以看出,对于低频序列a1,BP模型和SARIMA模型预测精度差别不大,都有较小误差。而对于d1、d2,SARIMA模型具有更高的精度。对于d3,BP模型在预测准确性上有优势。
最后进行WT-SARIMA-BP组合预测。对高频序列d1和d2选取SARIMA模型进行预测,对低频序列a1和高频序列d3选取BP神经网络方法进行预测,再将得到的预测的分量值叠加后进行组合预测。
图10. 三层小波分解结构图
图11. 小波分解与重构后的结果
ARIMA | SEASONAL | |||||
---|---|---|---|---|---|---|
p | d | q | p | d | q | |
a3 | 2 | 1 | 0 | 0 | 0 | 2 |
d1 | 1 | 0 | 0 | 1 | 0 | 1 |
d2 | 5 | 0 | 0 | 2 | 0 | 0 |
d3 | 5 | 0 | 0 | 0 | 1 | 2 |
表6. 高低频分量的模型定阶参数
图12. WT-BP预测结果图
a1 | d1 | d2 | d3 | |
---|---|---|---|---|
WT-SARIMA | 1.61% | 81.35% | 40.33% | 27.76% |
WT-BP | 1.65% | 683.51% | 62.57% | 18.38% |
表7. 小波分解预测结果对比
取2020年3月至2022年1月共23个月的铁路月客运量的值作为预测组,将原始序列直接采用SARIMA模型预测、直接采用BP神经网络模型预测、WT分解后分别采用SARIMA模型预测、WT分解后分别采用BP模型和WT分解后采用组合的SARIMA和BP模型预测得到结果的MAE、MAPE、RMSE进行对比,得到表8。组合预测模型得到预测值的MAPE为9.72%,相较于WT-SARIMA模型的12.83%与WT-BP模型的9.80%有所下降。
BP | SARIMA | WT-SARIMA | WT-BP | WT-SARIMA-BP | |
---|---|---|---|---|---|
MAE | 5303.2003 | 3907.7889 | 2425.5059 | 1534.7437 | 1720.2375 |
MAPE | 31.93% | 23.51% | 12.83% | 9.80% | 9.72% |
RMSE | 6515.2181 | 5044.6015 | 3120.4066 | 2199.2559 | 2284.4745 |
表8. 小波分解预测模型精度对比
对于BP神经网络模型,通过对比EEMD、SSA和小波分解的预测精度指标,得到表9。从表9中可以看出,三种分解方法都可以提高BP神经网络预测的精度。对于BP预测模型,综合三个指标的数据分析,精度从高到低的排序为:EEMD-BP模型、WT-BP模型、SSA-BP模型、BP模型。
对于SARIMA模型,通过对比三种分解方法的预测精度指标,得到表10。从表10可以看出,经过采用三种分解方法均可以提高SARIMA模型的预测精度。对于SARIMA预测模型,综合三个指标的数据分析,精度从高到低的排序为:WT-SARIMA模型、EEMD-SARIMA模型、SSA-SARIMA模型、SARIMA模型。
BP | EEMD-BP | SSA-BP | WT-BP | |
---|---|---|---|---|
MAE | 5303.2003 | 935.9701 | 2908.2811 | 1534.7437 |
MAPE | 31.93% | 4.35% | 15.65% | 9.80% |
RMSE | 6515.2181 | 1202.0687 | 3960.8071 | 2199.2559 |
表9. 不同分解方法用法BP模型预测的精度指标
SARIMA | EEMD-SARIMA | SSA-SARIMA | WT-SARIMA | |
---|---|---|---|---|
MAE | 3907.7889 | 2240.0609 | 3513.6369 | 2425.5059 |
MAPE | 23.51% | 13.39% | 23.11% | 12.83% |
RMSE | 5044.6015 | 2924.4861 | 4853.0374 | 3120.4066 |
表10. 不同分解方法用SARIMA模型预测的精度指标
对上述共10种不同的预测模型的精度指标从小到大进行大致排名,得到表11。从表11可以总结出:对于铁路月客运量数据,采用EEMD、SSA和WT三种分解方法都可以提高预测的精度。采用EEMD分解方法的预测效果普遍优于采用WT分解,而WT分解法的预测效果又优于SSA分解法。分解后采用BP模型进行预测的误差普遍小于分解后采用SARIMA模型预测得到的误差。其中,预测效果最好的是采用EEMD-SARIMA-BP组合模型进行预测,而预测效果最差的是直接使用BP模型进行预测。
MAE | MAPE | MRSE | |
---|---|---|---|
EEMD-SARIMA-BP | 811.9572 | 3.96% | 1120.4639 |
EEMD-BP | 935.9701 | 4.35% | 1202.0687 |
WT-SARIMA-BP | 1720.2375 | 9.72% | 2284.4745 |
WT-BP | 1534.7437 | 9.80% | 2199.2559 |
WT-SARIMA | 2425.5059 | 12.83% | 3120.4066 |
EEMD-SARIMA | 2240.0609 | 13.39% | 2924.4861 |
SSA-BP | 2908.2811 | 15.65% | 3960.8071 |
SSA-SARIMA | 3513.6369 | 23.11% | 4853.0374 |
SARIMA | 3907.7889 | 23.51% | 5044.6015 |
BP | 5303.2003 | 31.93% | 6515.2181 |
表11. 所有预测方法的精度指标
铁路客运量具有较强的季节性,也具有趋势性,同时在内外部因素影响下还具有随机性和非线性等特点。因此,本文引入的具有季节效应的自回归移动平均模型和具有强非线性模拟、自学习能力的神经网络方法可对客运量进行有效的预测。基于改进预测精度的想法,本文引入集合经验模态分解、奇异谱分解和小波分解三种方法先对序列数据进行处理后再进行不同预测模型的建模。对1984年1月至2022年1月的全国铁路月客运量序列数据进行训练和预测,得到了以下结论:
1) 通过集合经验模态分解、奇异谱分解和小波分解三种分解方法处理过的数据,得到不同频率的分量再建立预测模型进行预测均可以有效地提高序列的预测精度。这说明分解数据可以为预测提取更有效的信息,使得预测模型的建模更具有针对性。
2) 在集合经验模态分解方法中,EEMD-SARIMA-BP组合模型的预测精度是本文中提到的十种预测模型中最好的。而EEMD-BP模型的精度略低于组合模型,这是因为组合模型中部分分量采用SARIMA可以得到更佳的预测效果,因此叠加后的组合模型可以提高整体预测的精确度。若不进行组合预测,将所有的IMF分量和残差项均进行BP模型预测,得到的预测结果的误差则是小于将所有分量全部进行SARIMA模型预测的误差。
3) WT-SARIMA-BP组合模型是所有小波分解预测方法中精度最高的,其次是WT-BP模型,预测效果最差的是WT-SARIMA模型。这说明,BP神经网络模型进行预测较SARIMA方法更适用于小波分解与重构后的铁路月客运量序列,可以提高预测的精确性。虽然WT-SARIMA模型的精度略低于上述两种方法,但还是高出原始序列直接采用SARIMA模型和BP模型预测的精度很多。
4) 虽然预测的精度低于上述两种分解方法的预测模型,但SSA-BP模型和SSA-SARIMA的预测精度也是高于直接用预测模型进行预测的。这表明通过奇异谱分解后的序列数据预测值较直接使用预测模型得到的预测值更加接近真实值,用该种分解方法进行分解后再预测同样可以提高预测的精度,但是对于铁路客运量预测值提升精度的效果有限。
刘建熙,赵依虹,梁美丽. 基于分解–集成方法的铁路客运量预测Railway Passenger Transportation Volume Prediction Models Based on Decomposition-Aggregation Methods[J]. 应用数学进展, 2022, 11(12): 8634-8649. https://doi.org/10.12677/AAM.2022.1112910
https://doi.org/10.16381/j.cnki.issn1003-207x.2019.0765