基于1950年~2014年的全国麻疹发病率数据,利用时间序列建立模型,有效预测短期内麻疹的发病率,为麻疹的流行情况进行预警,提前做好预防工作。 Based on the national measles morbidity data from 1950 to 2014, we establish a model to effec-tively predict the incidence of measles in the short term through the time series analysis method, so as to issue warnings on the epidemic situation of measles and prepare the preventive work in advance.
周丹
安徽工业大学数理科学与工程学院,安徽 马鞍山
收稿日期:2017年12月6日;录用日期:2017年12月22日;发布日期:2017年12月29日
基于1950年~2014年的全国麻疹发病率数据,利用时间序列建立模型,有效预测短期内麻疹的发病率,为麻疹的流行情况进行预警,提前做好预防工作。
关键词 :时间序列,麻疹,指数平滑法
Copyright © 2017 by author and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
时间序列 [
时间序列分析方法分为描述性时间序列分析和统计性时间序列分析,描述性时间序列分析是指通过直观的数据比较,寻找时间序列的内在规律;统计性时间序列分析又可以分为频域分析法和时域分析法,频域分析法是把时间序列看作互不相关的周期(频率)分量的叠加,通过研究各分量的周期变化,以充分揭示时间序列的规律;时域分析法的基本思想是:序列值之间存在着一定的相关关系,这种相关关系具有一定的统计规律,我们的目的就是寻找这种规律,并构建数学模型来描述这种规律,进一步利用这个模型来预测序列未来的走势。
时域分析法最早产生于1927年,由英国统计学家尤尔提出了自回归模型,1931年,英国数学家、天文学家沃克提出了移动平均模型和自回归移动平均模型。1970年,美国统计学家博克斯与英国统计学家詹金斯合著了《时间序列分析、预测与控制》。1982年,美国统计学家、计量经济学家恩格尔提出了自回归条件异方差模型。1985年博勒斯洛夫提出了广义自回归条件异方差模型。1987年,英国统计学家、计量经济学家格兰杰提出了协整理论,为多变量时间序列建模拓宽了条件,使得“变量是平稳的”不再是必需条件。
麻疹 [
本文研究旨在利用历年的麻疹监测数据,通过曲线拟合和参数估计建立数学模型,对麻诊发病进行预测和预警,为麻疹的预防控制提供理论依据 [
本文的数据资料来自公共卫生科学数据中心,其采集了从1950年到2014年期间,北京市,安徽省,河北省等三十多个省市地区的发病人数,死亡人数,发病率以及死亡率。
首先,我们来看一下从1950年到2014年期间,全国的麻疹 [
图1. 发病率时间序列图
图2. 死亡率时间序列图
年之间,麻疹发病率和死亡率呈周期性波动,从1974年到2014年,麻疹的发病率以及死亡率逐渐减小,趋于一个定值。下面我们就全国麻疹发病率数据进行研究。
20世纪60年代,George Box与Gwilym Jenkins提出了一种关于时间序列分析、预测的方法,称之为B-J模型,也叫做ARMA (Auto Regression Moving Average)模型。ARMA模型 [
下面介绍一下指数平滑法 [
其模型的数学表达式为:对于一个时间序列 X ( t ) ,满足:
X ^ t + 1 = α X t + α ( 1 − α ) X ^ t
X ^ t + 1 = α X t + α ( 1 − α ) X t − 1 + α ( 1 − α ) 2 X t − 2 + ⋯ + α ( 1 − α ) t − 1 X 1 + ( 1 − α ) t X ^ 1
其中, X ^ t + 1 表示时间序列第 t + 1 时刻的预测值, X t 表示时间序列在第 t 时刻的实际观测值, X ^ t 表示时间序列在第 t 时刻的预测值, α 表示平滑系数,其中 0 < α < 1 。
下面我们对每年全国麻疹发病率进行拟合,则模型统计指标如表1,表2所示。
我们可以看一下2010年到2014年的真实值与预测值(置信区间为95%)如表3所示。
如图3所示,我们可以看出,拟合效果较好。且模型参数 α 的估计值为0.491。
由上述的模型,我们可以很好的预测短期麻疹发病率,并基于所得到的预测值进行麻疹预防工作 [
从图4可以看出,不同的地域,麻疹的发病率并不相同,前期,上海,北京的麻疹发病率明显高于其他地区,但后期的麻疹发病率低于其他地区,其原因可能与人口密集度有关,由于北京和上海的人口密度明显大于其他地区,人口流动性也最快,后期由于其医疗水平提升的最快,所以麻疹的发病率低于其他地区,当然麻疹的发病率也有其他原因,还需要我们进一步研究。
模型 | 预测变量数 | 模型拟合统计量 | Ljung-Box Q(18) | 离群值数 | ||||
---|---|---|---|---|---|---|---|---|
平稳的R方 | RMSE | 正态化的BIC | 统计量 | DF | Sig. | |||
发病率 | 0 | 0.167 | 214.308 | 10.799 | 22.656 | 17 | 0.161 | 0 |
表1. 模型统计量
模型 | 估计 | SE | t | Sig. |
---|---|---|---|---|
发病率无转换Alpha (水平) | 0.491 | 0.105 | 4.680 | 0.000 |
表2. 指数平滑法模型参数
年份 | 2010 | 2011 | 2012 | 2013 | 2014 |
---|---|---|---|---|---|
真实值 | 2.8589 | 0.7415 | 0.4589 | 2.0417 | 3.8835 |
预测值 | 6.4738 | 4.6986 | 2.7553 | 1.6276 | 1.8309 |
表3. 预测值与实际值
图3. 观测统计图
图4. 各地麻疹发病率统计图
感谢我的导师对我的悉心教导,感谢我的同学和朋友在学习、生活上的关心和帮助,最后,感谢我的家人,一直以来,无论是学习和生活,都离不开他们的支持、照顾和理解。
安徽工业大学研究生创新基金资助(2016137)。
周 丹. 基于时间序列的麻疹发病率分析Analysis of Measles Incidence Based on Time Series[J]. 统计学与应用, 2017, 06(05): 550-555. http://dx.doi.org/10.12677/SA.2017.65062
https://doi.org/10.1016/S0022-5193(03)00031-6