Time Series Analysis and Prediction of the Total Retail Sales of Social Consumer Goods in China
Based on the time series analysis theory, this paper takes the total retail sales of social consumer goods as the research object, takes the national total retail sales of social consumer goods in each month from 2000 to 2019 as the sample, fits the SARIMA model, forecasts the total retail sales of social consumer goods from January to December 2020 without the impact of the epidemic, and compares the predicted value with the real value published by the National Bureau of Statistics, to quantitative research on the degree of the impact of total retail sales of social consumer goods. The results showed that, in general, novel coronavirus pneumonia caused a significant decrease in the total retail sales of social consumer goods compared to the expected value. In the first half of 2020, the retail sales of social consumer goods had a great impact, and then the total retail sales of consumer goods gradually tended to normal in the second half of the year, when the epidemic gradually improved.
Time Series Analysis
社会消费品零售总额直接表现了国内消费需求,反映了人们的消费水平
因此,本文以我国社会消费品零售总额为研究对象,运用时间序列分析理论,选择季节ARIMA模型,预测若无疫情影响下2020年各月我国社会消费品零售总额,以探究疫情对我国居民生活和社会经济产生的影响。对我国社会消费品零售总额进行合理预测,可以了解后疫情时期我国居民消费需求情况,从而结合消费需求以促进对应的生产力水平的恢复,为相关经济政策的制定提供重要的参考依据。
全景月(2013)
本文为了避免疫情对社会消费品零售总额时间序列的干预影响,选用疫情暴发前即2020年1月前的数据当作样本,对其建立SARIMA模型表示未受扰的过程,并预测若无疫情影响下的2020年各月我国社会消费品零售总额,并将其与真实值进行比较,分析疫情对我国经济造成的影响。
在实际生活中,大部分时间序列中的趋势效应、季节效应等各种效应之间的关系都不能简单地用加法来表示,通常它们之间相互交织、相互影响,存在着复杂的交互效应,此时需要采用乘积季节模型。
乘积季节模型通常表示为ARMA(p, q)和ARMA(P, Q)的乘积形式,其中ARMA(p, q)模型用于提取序列中的短期相关性,即将序列中的趋势信息运用ARMA模型建模方法进行拟合;ARMA(P, Q)模型用于提取序列中的季节性信息,即将序列中的季节性信息运用ARMA模型建模方法进行拟合,其乘积形式表示它们之间的交互效应。
综合前面的d阶趋势差分和D阶以周期S为步长的季节差分运算,乘积季节模型通常表示如下:
(1)
式中,
该乘积模型简记为 。
图检验法是常用的一种方法,优点是简便易操作,结合序列的时序图和自相关图,根据它们的特征就能进行分析判断,如一个序列有明显的趋势或强烈的季节性波动,往往可以判断它是非平稳时间序列,缺点是带有强烈的主观性,在时序图或自相关图的特征不是很明显的情况下,容易造成错误的判断。
单位根检验也是常用的一种方法,有DF检验与ADF检验。两种检验的原假设均为序列非平稳,备择假设为序列平稳,即给定一个显著性水平α,若P值 < α,则可以判断序列平稳;反之,可以判断序列非平稳。
Cramer分解定理在理论上证明了适当的差分可以将任何一个非平稳序列转化为平稳序列
当序列标准差与水平值成正比,则对数变化也能有效使序列变为平稳序列
对于SARIMA模型的识别和参数估计采用Box-Jenkins方法。该方法需要计算出序列的样本自相关系数和偏自相关系数的值。
样本自相关系数可由如下公式求得:
(2)
样本偏自相关系数可根据样本自相关系数求得,如下所示:
(3)
式中,
AR(p) | MA(q) | ARMA(p, q), p > 0, q > 0 | |
ACF | 拖尾 | 滞后q阶后截尾 | 拖尾 |
PACF | 滞后p阶后截尾 | 拖尾 | 拖尾 |
当模型识别结束,接下来就需要对识别模型的参数进行估计,参数估计常用矩估计法、最小二乘估计及极大似然估计。矩估计通常而言是其中最简单的方法,运用样本均值估计平稳过程的均值,但此过程很多情况下不能充分提取样本的信息,因此,估计结果往往不够有效,使得估计结果不那么令人满意。
相比于矩估计只运用了一阶矩信息,最小二乘估计充分利用了样本的一阶矩和二阶矩信息,它实质是使得序列的残差平方和达到最小,因此,最小二乘估计往往比矩估计方法更有效。
然而,在更一般的条件下,最小二乘估计也未必能足够充分地提取有效信息,而极大似然估计能有效地保证这一点,但是运用极大似然估计需要样本的联合概率密度函数。
对模型进行识别,对选取模型选择合适的参数进行估计之后,需要对模型进行诊断,检验该模型的拟合程度,判断该模型的好坏,如果未能通过检验,则需要重新选择模型或对该模型进行调整。模型诊断有两种常用的思路,一是分析模型的残差,对残差进行显著性检验,即检验残差序列是否为白噪声序列,若是,则说明该模型已经充分提取样本中包含的信息,二是分析该模型是否拟合过度,即如果存在一个更为简洁且效果更好的模型,那么原模型则过度拟合。
Pierce (1970)提出Q统计量对残差序列进行纯随机性检验,也称白噪声检验
(4)
其中,T为时间序列观测值的个数,K为自相关系数的个数, 为残差的样本自相关系数。当样本量n足够大时,Q统计量近似服从 分布,其中p为ARMA模型中的自回归阶数,q为移动平均阶数。对于给定的显著性水平 ,其判别规则如下:
若 ,则模型拟合合适,可以进行下一步预测。
若 ,则模型拟合不合适,应进行改善修正。
判断模型是否拟合过度,则需要对参数进行显著性检验,参数的显著性检验运用 统计量, 统计量定义为参数估计值除以参数标准差,若检验统计量 值小于给定显著性水平 ,则拒绝原假设认为参数显著,反之,认为参数不显著。
时间序列建模的目的通常是运用拟合模型进行预测。目前最小均方误差预测是对平稳序列最常用的预测方法
基于序列可获得的直到时间 的历史数据,即 ,预测未来 期的值 ,称时间 为预测起点, 为预测前置时间,而用 代表预测值。
最小均方误差预测如下:
(5)
本文研究对象为我国社会消费品零售总额,根据国家统计局官方网站公布数据,本文选取其中2000年1月至2020年12月的共计234个样本值的月度数据。样本中共234个样本观测值,其中2012年至2020年每年的1月和2月的月度数据官网并未给出,当序列有缺失值时,我们通常会通过插值的方法对缺失值进行插补。在时间序列分析中,最常用的插值法是简单的线性插值法和样条插值法,因此可以使用R语言中的zoo程序包对原始数据进行线性插值,得到一个完整的样本数据,此时,样本共有253个样本观测值,其中2000年1月至2019年12月的241个月度数据为预干预数据,即此数据未受疫情的干预影响,该序列记为 ,2020年1月至12月的12个月度数据为干预数据,即此数据受到疫情的干预影响。
使用R语言,绘制时间序列的时序图(见
由
社会消费品零售总额的不断增长有多方面的原因。步入21世纪,城市人口增加,城镇化比例提高,居民生活水平提高,消费能力也随之提高。近十年来,增长尤为迅速,与网络消费的蓬勃发展息息相关。
时序图
模型拟合完成之后,先进行模型诊断,检验模型的拟合优度,利用LB (Ljung-Box)检验统计量对残差序列进行白噪声检验,检验该模型是否将有关信息充分提取。白噪声检验结果见
LB检验统计量 | 延迟阶数 | P值 |
12.317 | 6 | 0.05526 |
125.77 | 12 | 2.2e−16 |
加法季节模型不适合拟合该序列,说明该序列的各效应之间不是简单的加法关系,并不是相互独立存在的,而是存在着复杂的交互效应,不能简单地分开。因此,需要考虑乘积季节模型,对于这种复杂情况,乘积季节模型能够有效地进行拟合。
首先考虑序列的短期相关性,确定ARMA(p, q)中的参数p、q。观察自相关图(
再考虑序列的季节效应,确定ARMA(P, Q)中的参数P、Q。自相关图(
由于上述效应间可能存在乘积效应,我们要拟合的乘积模型为
。残差序列的白噪声检验见
LB检验统计量 | 延迟阶数 | P值 |
5.914 | 6 | 0.4329 |
7.8787 | 12 | 0.7945 |
综合上述分析,我们要拟合的乘积模型为 。
根据
系数 | ar1 | ma1 | sar1 |
0.0699 | 0.4807 | 0.4293 | |
σ估计 | 0.1349 | 0.1140 | 0.0589 |
在确定最优模型以后,将2000年1月至2018年12月数据作为样本观测值,运用以上分析确定的最优模型
对2019年各月份的社会消费品零售总额进行预测,预测结果见
时间 | 预测值/亿元 | 真实值/亿元 | 相对误差 |
2019年1月 | 34242.9 | 34504.2 | 1% |
2019年2月 | 32517.2 | 33115 | 2% |
2019年3月 | 30785.2 | 31725.7 | 3% |
2019年4月 | 30114.9 | 30586.1 | 2% |
2019年5月 | 32235.8 | 32955.7 | 2% |
2019年6月 | 32693.4 | 33878.1 | 3% |
2019年7月 | 32536.2 | 33073.3 | 2% |
2019年8月 | 33365.1 | 33896.3 | 2% |
2019年9月 | 33898.6 | 34494.9 | 2% |
2019年10月 | 37621.2 | 38104.3 | 1% |
2019年11月 | 37390.7 | 38093.8 | 2% |
2019年12月 | 38068.7 | 38776.7 | 2% |
根据上述分析,我们有把握认为将2000年1月至2019年12月数据作为样本,运用 模型对2020年1月至12月数据进行预测,能够有效预测若无疫情等特殊状况影响下的2020年各月社会消费品零售总额。
为此,我们运用此模型预测若无疫情等特殊因素干扰下的2020年各月社会消费品零售总额(见
时间 | 预测值/亿元 |
2020年1月 | 37013.3 |
2020年2月 | 35267.9 |
续表
2020年3月 | 33521.1 |
2020年4月 | 32511.9 |
2020年5月 | 34837.3 |
2020年6月 | 35630.9 |
2020年7月 | 35092.5 |
2020年8月 | 35987.2 |
2020年9月 | 36576.7 |
2020年10月 | 40492.2 |
2020年11月 | 40351.1 |
2020年12月 | 41075.3 |
对数据进行形象化处理,进行更直观的展示,如下
结合
时间 | 预测值/亿元 | 真实值/亿元 | 偏差/亿元 | 相对误差 |
2020年1月 | 37013.3 | 34667.7 | 2345.6 | 7% |
2020年2月 | 35267.9 | 30558.8 | 4709.07 | 15% |
2020年3月 | 33521.1 | 26449.9 | 7071.23 | 27% |
2020年4月 | 32511.9 | 28177.8 | 4334.14 | 15% |
2020年5月 | 34837.3 | 31972.8 | 2864.53 | 9% |
2020年6月 | 35630.9 | 33525.9 | 2104.96 | 6% |
2020年7月 | 35092.5 | 32202.5 | 2890 | 9% |
2020年8月 | 35987.2 | 33570.6 | 2416.61 | 7% |
2020年9月 | 36576.7 | 35294.7 | 1281.99 | 4% |
2020年10月 | 40492.2 | 38576.5 | 1915.66 | 5% |
2020年11月 | 40351.1 | 39514.2 | 836.92 | 2% |
2020年12月 | 41075.3 | 40566 | 509.32 | 1% |
综合上述分析,我们可以看出,疫情在3月份对社会消费品零售总额造成最大影响,使社会消费品零售总额较原预期值减少约7071亿元,疫情造成的较大影响集中在2020年上半年,并且呈现出先增大后减小的趋势,而在8月以后,疫情造成的影响几乎很小,因此,2020年新冠肺炎疫情总体上对社会消费品零售总额产生了短期的影响,也符合实际结果。但社会消费品零售总额真实值始终小于预测值,表明虽然疫情得到了有效控制,但它造成的影响却依然长期存在。
本文研究对象是我国社会消费品零售总额,以国家统计局公布的2000年1月至2019年12月社会消费品零售总额月度数据为预干预数据,根据时间序列理论应用季节性ARIMA模型对此时间序列进行分析。根据自相关图和偏自相关图进行模型识别,并通过残差单位根检验确定最优模型 ,并运用此模型对2019年的各月社会消费品零售总额进行预测,从预测结果来看,拟合值与真实值相差无几,相对误差基本在3%以下,预测精度较高。因此,有把握认为运用此模型能有效预测若无疫情影响下的2020年各月社会消费品零售总额,并将预测结果与真实值进行分析,量化疫情对社会消费品零售总额产生的影响。结果发现,疫情对社会消费品零售总额的最大影响是在3月份,总体上而言,对2020年上半年影响较大,而下半年随着疫情好转,社会消费品零售总额受到的影响逐渐减小。
目前,对社会消费品零售总额预测的研究大多是对这个总指标进行研究,而社会消费品零售总额有多种分法,如线下消费和线上消费、餐饮收入和商品零售等。近十年来,互联网产业的蓬勃发展极大地促进了人们的线上消费,网络零售在零售业中占据越来越重要的地位。如2020年初疫情严重暴发时,人们减少外出,传统零售业遭受严重打击,而线上销售影响相对较小,甚至某些行业发展愈发蓬勃,如线上教育等。通过对线下消费和线上消费等方面的合理预测,可以为我国有关部门制定相应的政策提供一些依据,使经济向更好的方向发展。因此,对社会消费零售总额的分类预测的研究将是未来本文分析和研究的一个方向。