1. 引言
纵观全球经济的发展,这些年来中国的经济一直表现出稳定而且快速的发展状态,增长速度一直领先全球各国的速度,对经济的影响方面可以分为投资、消费、进出口贸易,对于促进中国GDP增长的这三个方面,人们把它们称之为“三驾马车”。消费对经济是有绝对的推动作用,消费会刺激社会市场,提供出更多的就业机会,最终会进一步推动社会经济的发展;相对于经济增长而言,通过投资可以带动经济结构的调整从而来推动经济的增长,并且可以用资金量的投入来带动经济的飞速发展;当然进出口贸易对经济的发展的影响也是很大的,它在经济增长过程中有着不可或缺的作用。从70年代的改革开放到如今,我国的经济一直保持着高速的发展,相应的各个地区的经济也逐渐的过渡到了工业化的时代,人均收入和GDP的总量也已经达到了一个新的水平。在新的经济发展中,中国GDP的增长、消费与科技创新这三个方面到底起了怎样的作用,它们之间有着怎样的联系,这是我们现在应该关注、研究的热点。
2. 文献综述
由于GDP在国民经济中的重要地位,其增长与相关影响因素一直是经济研究的重点与热点,过去的许多年间,无数学者对其进行研究。一些学者研究发现,收入 [1] 、居民消费水平、进出口贸易总额、外商直接投资和研究与实验发展支出、固定资产投资 [2] [3] 、就业人数 [4] 是影响GDP的主要因素。其中,李燃、王安园、康雅琼运用最小二乘法研究发现固定资产投资对GDP有影响,吴巧生、成金华(2005)运用中国各省区市(西藏除外)1986~2005年的数据,检验了GDP和能源消费的协整及因果关系。用面板协整和基于面板误差修正模型来进行研究,用完全修正最小二乘法(FMOLS)来处理内生问题,得到中国GDP增长是能源消费的单向因果关系 [5] 。很多国家开始将R & D无形资产纳入GDP核算中,倪红福 [6] 尝试资本化R & D支出并定量分析其对GDP和结构的影响,结果表明R & D支出和我国GDP存在正相关关系。
在GDP预测方面,大量学者运用了各种模型与算法对其进行探讨,主要方法有多元线性回归预测法 [2] 、灰色预测模型 [7] 、神经网络预测模型等。白雨运用多元线性回归方法建立了相关指标模型,用其对GDP进行预测,结果与真实值相比误差小于5%。李彦芙建立回归方程,计算江苏省2017年GDP总额,与真实值相比绝对误差为2905.97,平均误差为3.38%。
本文运用26个省份2010~2020年的数据,通过梳理文献,选取实验发展(R & D)支出(万元)、社会消费品零售总额(亿元)、能源消耗(万吨标准煤)作为指标体系指标作为相关变量,运用多元线性回归进行实证分析,探讨对地区生产总值的影响程度 [8] ,并对回归模型结果进行检验以及对于内生性的处理。
3. 多元线性回归分析定义
设随机变量y和一般变量
的线性回归模型为
在这个模型中,
是
个未知的参数,其中
被称为回归常数,
被称为回归系数,y成为被解释变量,
是p个可以精确测量并且可以进行控制的一些一般变量,成为解释变量。
为随机误差,常假定
称
为理论回归方程。
若为n组观测数据
,那么线性回归方程就可表示为
写成矩阵
X是一个
阶矩阵,称为回归设计矩阵或资料矩阵 [9] 。
4. 实证分析
4.1. 变量的选取及模型的设定
4.1.1. 变量的选取
经济学理论指出,投资、出口、消费作为拉动经济增长的三驾马车,对国民经济的增长有着决定性的作用 [10] 。而资产投资反应了固定资产投资规模、速度和投资比例关系,其作为形成社会固定资本的主要渠道,也有着不可替代的重要地位;就业人数与地区经济发展水平密切相关,人口的就业结构不仅会受到经济结构和经济增长模式的影响,同时其合理与否也会直接影响到经济的发展,在一定程度上会对地区的发展和稳定具有影响;RD代表科技创新,意味着新的经济增长动力,而无形资产对经济增长的重要性日益突出。财政支出则衡量了一个省的经济实力与发展潜力。故选取科技创新实验发展支出(万元) (RD)、社会消费品零售总额(亿元) (CM)、能源消耗(万吨标准煤) (ET)作为衡量地区生产总值GDP的指标体系。
根据以上的分析,我们引入了影响GDP的3个变量:
GDP——地区生产总值;
RD——R & D代表科技创新;
CM——社会消费品零售总额(亿元);
ET——能源消耗(万吨标准煤)。
4.1.2. 模型的设定
要使对回归方程的位置参数估计变得简单,可对回归方程进行以下的一些基本假设:
1) 解释变量
是确定型变量,它们不是随机变量,而同时必须要求
这里的
,表明在矩阵X中的自变量列之间是不相关的,同时样本量的数目也是大于解释变量数目的,X是一个满秩的矩阵。
2) 随机误差项同时具有零均值和等方差的特性,即
这个假定通常会被称为高斯–马尔柯夫条件
,也就是说假设观测值是没有系统误差的,同时随机误差项
的平均值也是零。而随机误差项
的协方差为零,表示随机误差项在不同的样本之间是不相关的,是不存在序列相关性的,且具有相同的精度。
3) 正态分布的假定条件为
对多元线性回归的矩阵模型,此条件就可表示为
从上面的假定与多元正态分布的性质可以知道,随机变量y是服从正态分布的,而回归模型的期望向量
因此
。
根据引入的变量,设定模型为
其中:
——表示随机误差项,t为年份数。
4.2. 数据来源
收集26个省份2011到2020年的相关的指标的面板数据 [11] 。数据均来源于国家统计局统计。其中,GDP代表国民生产总值,RD代表科技创新实验发展支出(万元)、CM社会消费品零售总额(亿元)、(ET)能源消耗(万吨标准煤) UE代表普通高等学校本科招生数(万人)、TN规模以上工业企业新产品项目数(项)。
4.3. 描述性统计
本文选取了我国26个省份2011到2020年的相关的指标总体数据[,各变量的描述性统计结果如表1所示。
我国GDP地区生产总值,RD科技创新实验发展支出、CM社会消费品零售总额、(ET)能源消耗、UE普通高等学校本科招生数、TN规模以上工业企业新产品项目数均存在较大差异。具体来讲,地区生产总值最大值为111151.6,均值为27024.68,而最小值仅为1370.4,表明样本选取范围内地区生产总值的差距较大。RD科技创新实验发展支出的最大值为2.05e + 07,均值3,976,365,最小值为57,760,说明样本范围内我国RD科技创新实验发展支出也存在较大差距。
Table 1. Variable Descriptive Statistics
表1. 变量描述统计
4.4. 回归结果分析
本文采用最小二乘估计方法对模型进行估计,标准化数据后的到的模型:
回归结果如下表2:
Table 2. Ordinary Least Squares Regression Results
表2. 最小二乘法回归结果
根据初步回归结果,整理后得到多元回归模型如下:
从回归估计结果来看:
1)
,调整后的决定系数为
。提示该回归模型对样本的拟合程度非常高;
2) 进行F检验时,三个变量的P值远小于0.05,回归方程的系数不全为0,回归方程非常显著。即RD科技创新实验发展支出、CM社会消费品零售总额、ET能源消耗指标因素联合对我国GDP增长有显著影响;
3) 进行T检验时,RD科技创新实验发展支出的t统计量检验值为10.35,CM社会消费品零售总额的t统计量检验值为5.06、ET能源消耗的t统计量检验值为32.75,根据T分布表,给定显著性水平
时,根据回归结果我们可以得知,解释变量RD、CM、ET的t统计量发生的概率,即P值都小于t的置信水平系数
,说明回归方程的系数不全为0,回归方程非常显著。
4.5. 模型检验
4.5.1. 异方差检验
1) 异方差检验
为了检验该模型是否存在异方差,首先对其做BP检验,结果如下表3。结果表明P值小于0.05,拒绝同方差的原假设,认为该模型存在异方差。
为了进一步验证模型存在异方差,故对此进行怀特检验,结果如下表4。检验结果显示P值等于0.000,认为该模型存在异方差。
2) 异方差处理(FWLS)
本文采用FWLS (可行的加权最小二乘法)处理异方差,结果如下表5。
通过上表,此时的回归方程从
转换成
根据下表系数变化的值可知:
科技创新实验发展支出lnRD对lnGDP增长的影响,相比没有消除异方差的时候,变大了,即科技创新实验发展支出lnRD对lnGDP增长的有显著性影响增大;
能源消耗lnET相比没有消除异方差的时候,也变大了,即能源消耗lnET对lnGDP增长的有显著性影响增大;
社会消费品零售总额lnCM相比没有消除异方差的时候,变小了,即社会消费品零售总额lnCM对lnGDP增长的有显著性影响减小。
4.5.2. 内生性处理
内生性的主要来源包括遗漏变量偏差、联立方程偏差(双向因果关系),以及测量误差偏差,解决遗漏变量偏差的方法主要有加入尽可能多的控制变量、随机实验与自然实验、工具变量法、使用面板数据。
在本文中,主要用工具变量解决内生性问题。影响地区生产总值的因素本文选择RD科技创新实验发展支出、CM社会消费品零售总额、ET能源消耗作为指标体系。为了得到一致估计,对该回归分析采用了工具变量法进行研究。
1) 工具变量法
Step.1 使用稳健标准误实现第一阶段回归结果
回归结果显示(表6):ln RD的回报率高达16.8%,而且在1%的水平上显著不为0。这意味着,多一年的RD科技创新实验发展支出,地区生产总值将高出16.8%,这个ln RD的回报率似乎太高了。可能的原因是,遗漏变量UE普通高等学校本科招生数(万人)、TN规模以上工业企业新产品项目数(项)与RD科技创新实验发展支出正相关,故UE普通高等学校本科招生数(万人)、TN规模以上工业企业新产品项目数(项)的贡献也被纳入RD科技创新实验发展支出的贡献,因此高估了RD科技创新实验发展支出的回报率。
Table 6. Robust standard errors in 2-stage least squares regression
表6. 稳健标准误2sls回归
Step.2 使用工具变量法进行2sls回归
引入UE普通高等学校本科招生数(万人)、TN规模以上工业企业新产品项目数(项)作为RD科技创新实验发展支出的代理变量,再进行OLS回归。结果显示(表7):此时的UE普通高等学校本科招生数和TN规模以上工业企业新产品项目数的汇报率高达65%,即UE和TN的影响占绝大部分,故RD被高估,为内生变量。
Table 7. 2-stage least squares regression with instrumental variables (IV)
表7. 含工具变量的2sls回归
2) 过度识别检验
过度识别检验结果所示(表8),其P值为0.5719,大于5%,故接收原假设,认为(UE、ln TN )外生,与扰动项不相关。
3) 弱工具变量检验
弱工具变量检验结果如下表9所示。
从第一阶段的回归结果显示,工具变量(UE、ln TN)对内生变量ln RD有较好的解释力,P值均小于0.05。正式检验需要计算第一阶段回归的普通F统计量,首先使用稳健标准误重新进行2sls估计。
由于检验第一阶段回归的两个工具变量系数联合显著性的F统计量为164.476,超过10,故认为不存在弱工具变量。
Table 9. Weak instrument test results
表9. 弱工具变量检验结果
从第一阶段的回归结果显示,工具变量(UE、ln TN)对内生变量ln RD有较好的解释力,P值均小于0.05。正式检验需要计算第一阶段回归的普通F统计量,首先使用稳健标准误重新进行2sls估计。
由于检验第一阶段回归的两个工具变量系数联合显著性的F统计量为164.476,超过10,故认为不存在弱工具变量。
4) 豪斯曼和DWH检验
由于使用工具变量法的前提是存在内生解释变量。为此,本文需要进行豪斯曼检验和DWH检验。
豪斯曼检验显示P值为0.000,故可在5%的显著性水平上拒绝“所有解释变量均为外生”的原假设,认为Ln RD为内生变量。
由于传统的豪斯曼检验在异方差的情形下不成立,本文做了异方差稳健的DWH检验。结果显示,由于二者均小于0.05,故认为Ln RD为内生解释变量
5. 实证结果分析
以上分析检验最终确定的解释变量为:RD科技创新实验发展支出、CM社会消费品零售总额、ET能源消耗。根据回归估计结果,得到最终确立的模型如下:
从最终回归估计结果来看,所估计的参数
,
,
。这表明:1) 其他条件不变的情况下,Ln RD每增加1个单位,地区生产总值增加0.1049198;2) 其他条件不变的情况下,Ln ET每增加1个单位,地区生产总值增加0.1277438;3) 其他条件不变的情况下,Ln CM每增加1个单位,地区生产总值增加0.7122108。
为了解决模型内生性问题,本文对Ln RD引入了工具变量。其中,Ln RD为其内生变量,UE普通高等学校本科招生数作为Ln RD的工具变量,对Ln RD的贡献率最大。
本文最后第四章的各种估计法的系数及标准误汇总在如下表10中,回归是加入和没有ln RD均进行了回归并做了对比分析,可以看到没有Ln RD这个内生变量时,Ln CM、Ln ET、Ln RD均在0.01的水平上显著,而加入了Ln RD之后,Ln CM、Ln ET、ln RD变得没那么显著。本文还分别做了2sls以及Liml回归,二者回归结果大部分是差不多的,四次回归都高度拟合。
注:Standard errors in parentheses,*p < 0.1,**p < 0.05,***p < 0.01。
6. 结论与建议
6.1. 结论
本文通过分析我国26个省份的地区生产总值,选取了RD科技创新实验发展支出、CM社会消费品零售总额、ET能源消耗三个主要因素,通过国家统计局的数据,统计2010年至2020年26个省GDP总量以及相应指标的数据,求得多元回归模型为:
根据回归结果可以得出以下结论:RD科技创新实验发展支出、CM社会消费品零售总额、ET能源消耗对GDP地区生产总值呈正相关关系。这就表明我国省份的RD科技创新实验发展支出、CM社会消费品零售总额、ET能源消耗对与GDP地区生产总值存在显著影响。其中,影响地区生产总值最大的是CM社会消费品零售总额,其次是ET能源消耗,应影响最小的是RD科技创新实验发展支出。
从模型的参数估计结果可知,模型的拟合程度较好,用该模型预测的地区生产总值,误差在一定范围内,模型有较高的可信度,并在一定程度上符合经济意义,并且本文还对其内生性做了工具变量处理,UE普通高等学校本科招生数(万人)、TN规模以上工业企业新产品项目数(项)作为RD科技创新实验发展支出的工具变量,结果显示:UE普通高等学校本科招生数对Ln RD的贡献率最大。并且对处理后的模型进行了检验,因此该模型对地区生产总值预测分析有借鉴意义。
6.2. 政策建议
6.2.1. 促进消费品零售总额增长
基于以上研究结论,CM社会消费品零售总额是影响地区生产总值最大的因素。政府可以采取政策措施来鼓励个人和家庭增加支出,例如提供税收刺激措施、增加社会福利支出或提高工资水平。这将有助于刺激地区内的消费市场,从而促进GDP增长。
6.2.2. 优化能源消耗
ET能源消耗有利于地区生产总值的提高。减少不必要的能源浪费,提高能源效率,鼓励可再生能源的使用,以减少对不可再生能源的依赖。这不仅有助于减少能源成本,还可以减少对环境的不利影响,同时提高能源可持续性。
6.2.3. 加强科技创新和研发
RD科技创新实验发展支出中,UE普通高等学校本科招生数对其贡献率最高,故加强科技创新和研发,提升人才培养和科技创新。政府可提供奖学金、研究资金,鼓励高等教育质量提高,以推动地区生产总值增长。
附录A Stata运行代码
import excel “C:\Users\jozoc\Desktop\exp.xlsx”, sheet(“Sheet1”) firstrow
(5 vars, 310 obs)
*回归
. reg GDP RD ET CM
*画残差值与拟合值的散点图
. rvpplot RD
. rvpplot ET
. rvpplot CM
*BP检验
. estat hettest,iid
. estat hettest,iid rhs
. estat hettest RD,iid
*怀特检验
. estat imtest,white
*计算残差
. quietly reg GDP RD ET CM
. predict e1,residual
*生成残差的平方
. gen e2 = e1^2
. gen lne2 = log(e2)
*假设样本数据估计为变量RD的线性函数,进行辅助回归
. reg lne2 RD
*无常数回归
. reg lne2 RD,noc
*辅助回归的拟合值
. predict lne2f
. gen e2f = exp(lne2f)
*使用方差估计值的倒数作为权重,进行WLS回归
. reg GDP RD ET CM [aw=1/e2f]
*使用稳健标准误进行WLS回归
. reg GDP RD ET CM [aw = 1/e2f], r
//稳健性检验
import excel “C:\Users\jozoc\Desktop\test.xlsx”, sheet(“Sheet1”) firstrow
describe
sum
*数据标准化
gen lnGDP = ln(GDP)
gen lnCM = ln(CM)
gen lnET=ln(ET)
gen lnRD=ln(RD)
gen lnN=ln( Thenumberofnewproductprojec )
describe
sum
regGDP RD ET CM
*原始数据回归
regGDP RD ET CM,r
*标准化后的数据进行回归
reg lnGDP lnCM lnET lnRD
*使用稳健标准误回归
reg lnGDP lnCM lnET lnRD,r
*进行2sls回归
ivregress 2sls lnGDP lnCM lnET (lnRD= Undergraduateenrolmentingene lnN ),r first
*过渡识别检验
estat overid
*弱工具变量回归
qui ivregress 2sls lnGDP lnCM lnET (lnRD= Undergraduateenrolmentingene lnN )
estat first
*豪斯曼检验
qui reg lnGDP lnCM lnET lnRD
estimate store ols
qui ivregress 2sls lnGDP lnCM lnET (lnRD= Undergraduateenrolmentingene lnN )
est store iv
hausman iv ols ,constant sigmamore
*DWH检验
estat endogenous
*汇报结果
qui reg lnGDP lnCM lnET ,r
est sto ols_no_lnRD
qui reg lnGDP lnCM lnET lnRD,r
est sto ols_with_lnRD
qui ivregress 2sls lnGDP lnCM lnET (lnRD= Undergraduateenrolmentingene lnN ),r
est sto tsls
qui ivregress liml lnGDP lnCM lnET (lnRD= Undergraduateenrolmentingene lnN ),r
qui ivregress liml lnGDP lnCM lnET (lnRD= Undergraduateenrolmentingene lnN ),r
est sto liml
esttab ols_no_lnRD ols_with_lnRD tsls liml,se r2 mtitle star(* 0.1 ** 0.05 *** 0.01)
esttab ols_no_lnRD ols_with_lnRD tsls liml using iv.rtf,se r2 mtitle star(* 0.1 ** 0.05 *** 0.01)