本文基于统计年鉴中云南省2007~2016年生产总值和与之相关的数据,运用线性回归方法,建立了用于描述云南省地区生产总值与相关变量之间定量关系的拟合模型,并对模型进行了异方差检验、序列自相关检验和异常点的检验。该模型对于云南省地区生产总值的预测有一定的研究作用。 Based on the statistical yearbook of GDP from 2007 to 2016 in Yunnan province and the related data, using linear regression method, this paper sets up the fitting model to describe the relationship between GDP and related variables in Yunnan province. The heteroscedasticity test, sequence autocorrelation test and abnormal point test for the model are also carried out. The results show that this model can be used to predict the gross domestic product of Yunnan province.
胡欣欣
云南财经大学统计与数学学院,云南 昆明
收稿日期:2019年6月27日;录用日期:2019年7月13日;发布日期:2019年8月2日
本文基于统计年鉴中云南省2007~2016年生产总值和与之相关的数据,运用线性回归方法,建立了用于描述云南省地区生产总值与相关变量之间定量关系的拟合模型,并对模型进行了异方差检验、序列自相关检验和异常点的检验。该模型对于云南省地区生产总值的预测有一定的研究作用。
关键词 :生产总值,影响因素,线性回归模型
Copyright © 2019 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
地区生产总值是指地区生产总值(地区GDP)是指本地区所有常住单位在一定时期内生产活动的最终成果。地区生产总值等于各产业增加值之和。地区生产总值是衡量一个地区发展情况的良好尺度,本文使用线性回归模型对云南省地区生产总值的影响因素进行实证研究,通过变量选择方法,筛选得到了对地区生产总值具有显著影响的因素,并建立了拟合模型,该模型通过了异方差性检验。
本数据来源于国家统计局网(http://data.stats.gov.cn/easYquerY.htm?cn=E0103)上公布的2007~2016的相关数据。
本文的地区生产总值的影响因素的研究主要考察在众多因素中哪些因素对生产总值有显著的影响。此处首先给出自变量的待选变量集。经查阅资料,此处将城镇单位就业人员工资,全社会固定资产投资总额,地方财政一般预算收入和工业增加值、农林牧业增加值以及建筑业增加值引入待选变量集中,此外由于昆明作为春城花都,常年吸引世界各地的游客前来游玩,故将国际旅游外汇收入也引入待选变量集中。综上,此处选取地方财政一般预算收入(亿元)、全社会固定资产投资总额 [
首先,绘制出变量Xi( i = 0 , ⋯ , 7 )和Y之间的散点图(见图1),观察解释变量与响应变量之间的关系。通过散点图可以初步发现,解释变量Xi与生产总值Y大致成线性正向影响关系。Y与X之间的pearson相关系数分别为0.9936,0.9798,0.9938,0.9726,0.9968,0.9911,0.9834。
为了进一步分析解释变量Xi对生产总值Y的影响,本文采用多元线性回归模型对变量之间的关系进行验证。此处建立云南省地区生产总值影响因素分析的七元回归预测模型:
图1. 散点图((1)~(7))
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 + β 7 X 7 + μ
其中,X1系地方财政一般预算收入(亿元)、X2系全社会固定资产投资总额(亿元)、X3系城镇单位就业人员工资总额(亿元)、X4系工业增加值(亿元)、X5系农林牧业增加值(亿元)、X6系建筑业增加值(亿元)、X7系国际旅游外汇收入(亿元),Y系地区生产总值(亿元)。βi( i = 0 , ⋯ , 7 )为各解释变量对应的参数,μ为随机误差项。回归方程的参数估计值及检验结果如表1所示:
B | −592.0935638 | R | −28.82337198 | STATS | 0.999865087 | ||
---|---|---|---|---|---|---|---|
−1.003571793 | −48.71111925 | 2117.481046 | |||||
−0.03798688 | 64.14180971 | 4.72E−04 | |||||
−1.586163353 | −18.363136 | 7783.073529 | |||||
1.439753515 | 81.93407372 | ||||||
2.271980028 | −24.36149496 | ||||||
4.253160936 | −10.50518321 | ||||||
16.51859195 | −11.55886781 | ||||||
BINT | −5777.876278 | 4593.68915 | −15.1716182 | ||||
−6.531785918 | 4.524642332 | 11.41890798 | |||||
−0.782036473 | 0.706062713 | RINT | −159.9517622 | 102.3050182 | |||
−15.80920849 | 12.63688178 | −316.6328979 | 219.2106594 | ||||
−0.33337036 | 3.212877391 | −400.803646 | 529.0872654 | ||||
−5.188910392 | 9.732870447 | −188.9341391 | 152.2078671 | ||||
−2.762196045 | 11.26851792 | −231.2976245 | 395.1657719 | ||||
−60.47366393 | 93.51084783 | −1136.258304 | 1087.535315 | ||||
−577.3128279 | 556.3024615 | ||||||
−522.2354876 | 499.117752 | ||||||
−514.2038755 | 483.8606391 | ||||||
−104.1184798 | 126.9562958 |
表1. 检验结果
所得到的模型为
h Y = − 592.094 − 1.004 X 1 − 0.038 X 2 − 1.586 X 3 + 1.440 X 4 + 2.272 X 5 + 4.253 X 6 + 16.519 X 7 + μ
线性方程的回归检验的P值为 0.00047 ≪ 0.5 ,R2为0.999,这意味着在5%的显著性水平下,因变量与自变量之间的线性关系是显著的。而在系数的t检验中,p值最小的是0.155,故在5%显著性水平下所有系数均不显著,即每个解释变量对被解释变量的线性影响均不是显著的 [
Y | X1 | X2 | X3 | X4 | X5 | X6 | X7 | |
---|---|---|---|---|---|---|---|---|
Y | 1.0000 | 0.9936 | 0.9798 | 0.9938 | 0.9726 | 0.9968 | 0.9911 | 0.9834 |
X1 | 0.9936 | 1.0000 | 0.9556 | 0.9777 | 0.9878 | 0.9935 | 0.9729 | 0.9637 |
X2 | 0.9798 | 0.9556 | 1.0000 | 0.9940 | 0.9104 | 0.9706 | 0.9967 | 0.9933 |
X3 | 0.9938 | 0.9777 | 0.9940 | 1.0000 | 0.9428 | 0.9894 | 0.9978 | 0.9961 |
X4 | 0.9726 | 0.9878 | 0.9104 | 0.9428 | 1.0000 | 0.9725 | 0.9346 | 0.9221 |
X5 | 0.9968 | 0.9935 | 0.9706 | 0.9894 | 0.9725 | 1.0000 | 0.9824 | 0.9763 |
X6 | 0.9911 | 0.9729 | 0.9967 | 0.9978 | 0.9346 | 0.9824 | 1.0000 | 0.9929 |
X7 | 0.9834 | 0.9637 | 0.9933 | 0.9961 | 0.9221 | 0.9763 | 0.9929 | 1.0000 |
表2. 标准试验系统结果数据
由表可以看出,各变量之间的确存在一定的线性关系。对七个自变量采用逐步回归的方法进行变量筛选 [
图2. 逐步回归结果
逐步回归 [
为了进一步确证变量选择结果,此处使用AIC准则 [
方程参数个数 | 0 | 1 | 2 | 3 |
---|---|---|---|---|
AIC | 10.1881 | 10.3881 | 10.5881 | 10.7881 |
表3. 模型选择
由表可见,AIC准则提供的变量选择的结果与逐步回归法一致,均选择X4,X5和X6。
将模型方程进行二次拟合,结果如表4所示
B | 350.6842228 | R | −33.52757785 | STAT | 0.99971655 | ||
---|---|---|---|---|---|---|---|
1.137715241 | −13.63017709 | 7054.1519 | |||||
1.547737596 | 14.28206732 | 4.98E−11 | |||||
3.593891533 | −30.80403968 | 5450.522315 | |||||
127.0311839 | |||||||
−8.572269564 | |||||||
18.06150944 | |||||||
−105.0181031 | |||||||
−16.75386847 | |||||||
48.93127516 | |||||||
BINT | −67.8708 | 769.2392 | RINT | −186.859 | 119.8043 | ||
0.779395 | 1.496036 | −176.098 | 148.8378 | ||||
0.340233 | 2.755242 | −157.319 | 185.8833 | ||||
2.806107 | 4.381676 | −108.111 | 46.50304 | ||||
9.489593 | 244.5728 | ||||||
−182.997 | 165.8529 | ||||||
−145.033 | 181.1563 | ||||||
−240.495 | 30.45866 | ||||||
−190.971 | 157.4633 | ||||||
−57.0083 | 154.8708 |
表4. 二次拟合结果
故得出模型方程为: h Y = 350.684 + 1.138 X 4 + 1.548 X 5 + 3.594 X 6 。
a. 残差图分析法 [
图3. 残差图
由异方差性检验原理可知,当线性回归模型满足其假设条件时,即模型中不存在明显的异方差性,残差图上的n个数据点的散布应该是随机的,无任何规律。观察图3可得,数据点的分布较为随机,故此模型不存在明显的异方差性。
b. 斯皮尔曼(Spearman)检验 [
由MATLAB程序运算可得,P值为0.8810,大于0.5,故模型不存在异方差。
经过上述分析,我们建立了 h Y = 350.684 + 1.138 X 4 + 1.548 X 5 + 3.594 X 6 这样一个方程模型。从这个模型来看,在地方财政一般预算收入、全社会固定资产投资总额、城镇单位就业人员工资总额、工业增加值、农林牧业增加值、建筑业增加值和国际旅游外汇收入这些自变量中,对地区生产总值影响最为显著的是工业增加值、农林牧业增加值和建筑业增加值。工业增加值、农林牧业增加值、建筑业增加值均与地区生产总值成正相关。这说明工业、农业和建筑业对地区生产总值的提高具有积极作用,这与我们的常识了解也是相一致的。欲提高一个地区的生产总值,应大力促进其工农建三方面产业的发展。
胡欣欣. 云南地区生产总值影响因素和回归分析 Influencing Factors and Regres-sion Analysis of GDP in Yunnan Province[J]. 统计学与应用, 2019, 08(04): 581-588. https://doi.org/10.12677/SA.2019.84066