A Study on Trend Prediction of China’s Railway Passenger Transport Based on Time Series Intervention Analysis Model
To assess the impact of emergency events on the trend of China’s railway passenger volume, this paper proposes a targeted design of dummy variables for the intervention impact sequence based on impulse functions or step functions, after identifying outliers in the time series and selecting the optimal ARIMA model. The study determines the transfer function of the intervention process and combines it with the optimal ARIMA model to establish an intervention prediction model. Using monthly series data of national railway passenger volume from January 2015 to December 2021, the research finds that the impact of the pandemic has resulted in outliers in the originally periodic and growing passenger flow sequence, and the intervention still has an effect on subsequent periods. The intervention analysis model demonstrates a good degree of fit, with predictions aligning with actual trends. The root mean square error (RMAE) of the model is 2856.15949, indicating a high overall accuracy.
Railway Passenger Volume
近年来,铁路建设不断加快,逐渐成为人们出行的最主要交通方式之一。在2020年之前,我国铁路客运量呈现逐年增长的趋势
目前,针对铁路客运量时间序列的预测研究,主要运用机器学习
时间序列经常会受到特殊事件及态势的影响,这类外部事件称为干预。
基于以上研究现状,本文在前人研究基础上主要从以下方面展开研究:考虑铁路客流的短期波动变化,以铁路月度客流量时间序列为研究对象。其次,将ARIMA的乘积季节模型与干预分析功能相结合,构建时间序列干预预测模型,优化前人在铁路客运量干预预测中的不足。
本文数据来源于国家统计局网站,选取2015年1月~2021年12月 的全国铁路客运量月度数据为原始数据,其中2015年1月为起始时刻( ),数据无缺失值。
通过
从2020年3月开始,铁路客运量呈现出逐渐递增的趋势,然而仍未恢复到疫情前的水平。表明疫情对铁路客运量产生了长期的影响。随着疫情逐渐得到控制,人们对于出行的需求可能会逐渐恢复,但疫情防控措施对于客运量的影响可能会持续一段时间。
通过数据的趋势分析可知包含季节性特征,需建立ARIMA模型的季节乘积模型ARIMA (p, d, q) (P, D, Q)s。该模型是在ARIMA的基础上加入了季节性部分。(P, D, Q)s表示季节部分,其中s表示季节性频率。
干预分析模型是在对事件建立时间序列模型的基础上,将干预事件纳入考虑范围,对模型进行相应调整和整合,以建立更精确、完善的预测模型。
干预变量有两种表示形式:
(1) 持续性干预变量,表示时间序列在T时刻受到干预,干预发生后序列受到持续影响,此时干预变量用阶跃函数表示:
(1)
(2) 短暂性的干预变量,表示时间序列在某一时刻受到干预,干预与仅在该时刻产生影响,此时干预变量用脉冲函数表示:
(2)
在研究中必须选择恰当的干预形式,以反映序列中紧急变量的波动情况干预事件的形式。
根据前文的分析可知,2020年1月我国铁路客运量的数值为27126万人,而2月为3723万人,由此可知疫情冲击从2020年2月开始的,因此本文按照外部事件的发生分将数据为两个时期:第一个时期为2015年1月至2020年1月 ,该时期的铁路客运量未受到疫情影响;第二个时期为2020年2月至2021年12月 。由于疫情防控对铁路客运量的影响是在2020年2月份突然发生,并且该影响会产生持续作用,故设定干预变量 ,干预影响为:
(3)
其中{
}为状态零均值白噪音。当
时,退化为
,意味着干预事件的影响突然开始,定性分析不能判断显示模型的准确形式
干预分析模型建模的具体步骤如下
(1) 首先,利用未发生干预事件前的序列数据进行建模,创建单变量时间序列模型。通过该模型对一定时间段内的序列进行外推预测,从而获得在没有干预事件发生时的预测数值。
(2) 然后,对干预的影响进行量化分析。通过实际观测值与预测值之间的差异来确定干预事件对原始序列的影响程度,进而推导出干预模型的相关参数。
(3) 接着,计算并获得排除了干预影响后的数据,建立基于这些数据的单变量时间序列模型,以便进一步分析和预测序列的变化趋势。
(4) 综合以上步骤,构建完整的干预分析模型。
经过自相关函数和偏自相关函数分析,在通过残差白噪音的基础上,采用最小信息准则(AIC)对模型的阶数进行判定。最后综合考虑预测效果及参数显著性,建立最优模型为 模型的参数估计如下:
参数 |
估计 |
标准误差 |
MA1,1 |
0.43895** |
0.17137 |
AR1,1 |
−0.63232*** |
0.14063 |
AR1,2 |
−0.43735*** |
0.14709 |
注:***,**,*分别表示通过1%,5%,10%显著性检验
结果表明,以上参数估计值具有统计意义。模型 为:
(4)
接着利用 模型预测未来23期,即2020年2月至2021年12月我国铁路客运量的预测值。
本研究已运用建立的第一个时期的ARIMA季节乘积模型外推预测了2020年2月至2021年12月
没有干预作用时的人数预测值,用实际值减去预测值,得到的差值解释疫情产生的影响程度
t |
|
|
|
|
|
69 |
−5258.4242 |
77 |
−7246.5107 |
||
62 |
−21487.1357 |
70 |
−6056.7759 |
78 |
−5606.9468 |
63 |
−19561.3673 |
71 |
−6432.4511 |
79 |
−23150.6459 |
64 |
−15087.9374 |
72 |
−13130.9031 |
80 |
−8894.7581 |
65 |
−14102.51 |
73 |
−16536.7957 |
81 |
−8871.1528 |
66 |
−14475.1144 |
74 |
−5693.8737 |
82 |
−14360.2018 |
续表
67 |
−12509.1397 |
75 |
−3960.8446 |
83 |
−11871.9902 |
68 |
−6882.182 |
76 |
−2498.8559 |
t |
|
|
|
|
|
61 |
−26119.6386 |
69 |
−5258.4242 |
77 |
−7246.5107 |
62 |
−21487.1357 |
70 |
−6056.7759 |
78 |
−5606.9468 |
63 |
−19561.3673 |
71 |
−6432.4511 |
79 |
−23150.6459 |
64 |
−15087.9374 |
72 |
−13130.9031 |
80 |
−8894.7581 |
65 |
−14102.51 |
73 |
−16536.7957 |
81 |
−8871.1528 |
66 |
−14475.1144 |
74 |
−5693.8737 |
82 |
−14360.2018 |
67 |
−12509.1397 |
75 |
−3960.8446 |
83 |
−11871.9902 |
68 |
−6882.182 |
76 |
−2498.8559 |
由于
序列无趋势性及周期性,且白噪音检验表明
序列相关性不显著(p > 0.1),任何ARMA模型系数的显著性检验均未通过。因此,干预影响退化为
,
净化序列指的是消除了干预影响的序列,由实际值 减去干预影响值 得到:
(5)
式中, 代表净化值,
(6)
对净化序列 建立拟合模型时,仍然选择ARIMA季节乘积模型,利用SAS软件反复调试后,最优模型为 。
(7)
利用上文过程和参数估计结果,最终确定干预分析模型形式如下:
(8)
式中, 。
为检验模型的建立及拟合成果,绘制拟合效果图如下:
根据
为了对我国铁路客运量的趋势进行预测研究,本文使用来源于国家统计局的月度铁路客运量数据集,对数据进行趋势分析后,发现由于疫情的影响导致原本具有周期性、增长趋势的客流序列产生离群值,并且干预发生后对滞后期仍有影响。基于数据的特点,本文将ARIMA的乘积季节模型与干预分析功能相结合,构建时间序列干预预测模型,结果表明,净化序列的最优模型 与干预影响程度 组合而成的干预分析模型拟合程度较好,预测符合实际走向,模型的均方根误差(RMAE)为2856.15949,总体上看精确度较高。
干预影响程度 的计算结果揭示了2020年2月,新冠疫情的影响对我国铁路客运量的负冲击为−26119.6386,平均负冲击为−11730.26763,这暗示着,在当今铁路高速发展的背景下,新冠疫情对铁路的影响是长期的,预计在未来的一段时间内,铁路客运量仍将受到一定程度的影响。
基于模型的预测结果和干预影响程度的计算,铁路客运部门可以制定合适的运营策略和调整运力安排,以适应突发事件对铁路客流量的影响。例如,如果新冠疫情导致客运量减少了50%,铁路部门就可以考虑减少班次、缩短运营时间或增加运力来应对。未来,铁路部门需要密切关注新冠疫情的发展趋势,及时调整运营策略和运力安排。如果疫情得到有效控制,客运量逐渐恢复正常,便可以考虑通过增加班次或优化服务等措施来提高客运量。
在时间和水平等方面的问题上,本论文的研究还存在着不足,有待进一步的研究,包括以下几点:
(1) 本文在构建干预影响程度 的模型时,由于数据特点,干预影响程度的参数 采用的是影响程度的均值,可能会加大拟合误差。收集更多处于干预影响期间的数据有助于捕获干预影响程度 的变化趋势,以构建更科学的模型。
(2) 本文只讨论了单因素时间序列在客运量预测中的应用,而实际生活中,客运量的变化往往受到多种因素的共同影响,如经济波动、政策变更、气候变化等。为了更加贴近实际情况,需要对各种因素进行综合分析,权衡它们之间的作用,以更精确地预测客运量。因此,在未来的研究中,可以逐步拓展时间序列分析的领域,深入研究多种因素共同作用下的客运量预测问题,为交通规划、物流运输等领域的决策提供更加科学、可靠的依据。
感谢老师和同学一路上的指导及帮助。