AR(p)模型广泛应用于时序预测,然而传统静态模型难以处理突发事件以致模型估计偏差。鉴于突发事件对模型估计的影响,采用Gibbs抽样方法对模型进行Bayes分析,根据时序样本似然函数的统计结构构造出模型各参数的先验分布。在导出模型参数后验条件分布后给出具体抽样策略。在最小均方误差估计准则下对中小样本的模拟显示,参数估计值与真值接近。对上海港1982~2015年集装箱吞吐量数据的分析表明:借助Bayes分析,可以克服由于突发事件导致的模型估计偏差,使模型预测更加准确。 AR(p) model is widely used for time series forecasts; however, it’s difficult for traditional static model to deal with emergencies, which lead to estimation bias. In view of the influences of emergencies for model estimation, we carry out Bayesian analysis of the model by aid of the Gibbs sampling. According to likelihood function’s statistical structure of the time series samples, the prior distribution is obtained. After getting the posterior empirical distribution of parameters, the specific sampling strategy is proposed. Under the minimum mean square error estimation criterion, the simulation experiments show that the estimates are close to the true value. The analysis for the data of Shanghai port’s container throughput from 1982 to 2015 indicates that by aid of the Bayesian analysis, the estimation bias from emergencies can be overcome so that the model prediction is more accurate.
朱善维
上海海事大学经济管理学院,上海
收稿日期:2016年11月26日;录用日期:2016年12月9日;发布日期:2016年12月15日
AR(p)模型广泛应用于时序预测,然而传统静态模型难以处理突发事件以致模型估计偏差。鉴于突发事件对模型估计的影响,采用Gibbs抽样方法对模型进行Bayes分析,根据时序样本似然函数的统计结构构造出模型各参数的先验分布。在导出模型参数后验条件分布后给出具体抽样策略。在最小均方误差估计准则下对中小样本的模拟显示,参数估计值与真值接近。对上海港1982~2015年集装箱吞吐量数据的分析表明:借助Bayes分析,可以克服由于突发事件导致的模型估计偏差,使模型预测更加准确。
关键词 :AR模型,Bayes分析,Gibbs抽样,吞吐量
世界经济的发展与港口业休戚相关,世界各主要港口间的竞争如今正逐步转向以集装箱吞吐量为核心的港口综合能力的竞争。可见,对港口集装箱吞吐量的预测不可或缺,其在制定港口发展方向,经营策略,投资规模,泊位选址上都发挥着重要作用。
对于集装箱吞吐量的预测,田歆等 [
运用Bayes方法对时间序列模型进行分析时会遇到对高维概率分布积分的问题。Gibbs抽样是解决高维积分的迭代Monte Carlo方法,解决了复杂表达式难以高维积分的问题,应用十分广泛。本文利用Bayes方法对AR(p)模型进行分析,得到模型参数后验条件分布后,给出Gibbs抽样的具体策略。通过Gibbs抽样得到一系列模拟值构成Markov链,且链的平稳分布收敛于待估参数的后验条件分布,即可以将模拟值看作后验分布的独立样本对参数估计值进行推断。
对于随机变量
其中,误差项
若已知
记
其对数似然函数为
在进行Bayes分析时,由于参数的先验信息比较难确定,而不当先验信息会对估计结果产生错误影响。根据似然函数(2)式的结构,自回归系数
其中
为了避免对参数的高维概率密度函数作积分的复杂问题,我们利用马尔科夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)算法。
MCMC的基本思想是:对于给定样本集
其中,
考虑到联合后验分布(3)式的特点,如文 [
引理:对于样本
其中,
于是,回归系数
算法1:步1:抽取
步2:抽取
步3:若
对在参数
也就是
其中,
于是Gibbs抽样方法的具体迭代步骤如下:给定迭代初始值
步1:从分布
步2:从分布
为了考察Gibbs抽样方法的效果,本节进行模拟实验,为不失一般性,取
其中,
由表1可见,当样本量较小时就已经接近真实值,且随着样本时间跨度的增加,参数的估计标准差逐渐缩小。
自2010年来,上海港集装箱吞吐量一直居世界第一,对其集装箱吞吐量的预测对我国经济的发展至关重要。本文选取1982~2015年的上海港集装箱吞吐量数据(如表2),数据来源于上海市统计年鉴 [
绘出历年吞吐量的散点图如图1。
由图可见,数据呈现指数上升的趋势,2009年由于世界金融危机上海港集装箱吞吐量锐减,可视为突发事件。因此可对数据做对数处理,处理结果如图2。
N | 真值 | 50 | 100 | 200 |
---|---|---|---|---|
|
0.7 | 0.6939(0.1719) | 0.7011(0.1142) | 0.7048(0.0923) |
|
−0.1 | −0.098(0.1556) | −0.1056(0.1191) | −0.1089(0.1085) |
|
0.01 | 0.0160(0.0015) | 0.010(0.0010) | 0.0134(0.0011) |
表1. 参数后验均值估计结果
年份 | 吞吐量 | 年份 | 吞吐量 | 年份 | 吞吐量 |
---|---|---|---|---|---|
(万TEU) | (万TEU) | (万TEU) | |||
1982 | 6.6 | 1994 | 119.9 | 2006 | 2171.9 |
1983 | 8.0 | 1995 | 152.6 | 2007 | 2615.2 |
1984 | 11.5 | 1996 | 197.1 | 2008 | 2800.6 |
1985 | 20.2 | 1997 | 93.5 | 2009 | 2500.2 |
1986 | 20.4 | 1997 | 119.9 | 2010 | 2906.9 |
1987 | 22.4 | 1998 | 152.6 | 2011 | 3173.9 |
1988 | 31.3 | 2000 | 197.1 | 2012 | 3252.9 |
1989 | 35.4 | 2001 | 252.8 | 2013 | 3361.7 |
1990 | 45.6 | 2002 | 306.6 | 2014 | 3528.5 |
1991 | 57.7 | 2003 | 421.6 | 2015 | 3653.7 |
1992 | 73.1 | 2004 | 1455.4 | ||
1993 | 93.5 | 2005 | 1808.4 |
表2. 1982~2015年上海港集装箱吞吐量
经对数处理后,吞吐量随时间的变化有明显的线性趋势。所以对变换后的数据进行时间序列分析。
利用R软件tseries包中的adf.test()函数对变换后的吞吐量做单位根检验,
图1. 1982~2015年集装箱吞吐量
图2. 1982~2015 年集装箱对数吞吐量
且序列的ACF,PACF图如下。
由图3可知,ACF拖尾,PACF两步截尾。可以采用Bayes AR(2)模型
图3. 对数吞吐量二阶差分的ACF(上)、PACF(下)
对数据进行拟合,利用上文的Gibbs抽样方法对模型参数进行估计,且先验参数与模拟实验部分一致,Gibbs抽样模拟轨道长10,000,绘出参数的后2000次迭代过程(见图4)。
可见参数迭代平稳,并抛弃轨道的前5000个点,计算参数的后验均值与标准差见表3。其中括号内数字代表参数后验标准差。
则模型的估计结果为
其中,
图4. 参数后2000次迭代过程
|
|
|
---|---|---|
−0.6532(0.166) | −0.5847(0.172) | 0.0195(0.0053) |
表3. 参数后验均值结果
3947.072TEU,4098.362TEU。
由于贝叶斯参数估计方法充分利用了样本的信息和模型信息,估计方法更加灵活,对诸如金融危机之类的突发性事件有着较好的应变能力,也能克服传统估计方法中因为样本不足或者质量不佳导致结果误差较大的缺陷。用贝叶斯估计未知参数的方法得到的模型更适合预测,更能反映现实问题。
朱善维. 基于Gibbs抽样的集装箱吞吐量Bayes AR(p)分析 Bayes AR(p) Analysis of Container Throughput Based on the Gibbs Sampling[J]. 统计学与应用, 2016, 05(04): 350-358. http://dx.doi.org/10.12677/SA.2016.54037
https://doi.org/10.1016/S0304-4076(97)88050-5
https://doi.org/10.1016/S0167-9473(01)00055-X