1. 引言
在十九大报告中,明确提出“加快建立现代财政制度,充分发挥财政政策的导向作用,努力提高经济发展的质量和效益,推进国家治理体系和治理能力现代化”。财政收入在一定程度上是一个国家国民经济实力映现的窗口,也是国家进行资源配置优化、促进社会公平、改善民生的重要经济杠杆 [1] 。
从地方层面上来说,地方财政作为我国的财政的重要组成部分,是地区经济建设发展的重要保证,也是促进其经济平稳运行的物质基础。对地方财政收入进行分析和预测,可以有效克服地方财政预算与收支失衡的问题,有助于加强相关部门拟订预算及财政政策,以此改进地方财政收入预测模型的科学性、预测的客观性、规划的前瞻性。
从2020年开始,新冠疫情持续地影响着全省甚至全世界经济的正常运转,为经济的稳定发展带来了很大的压力。如何把准各自定位,发挥各自优势,进一步提升经济实力,优化财政分配和配置,拉动财政收入的增长,促进江西省经济高质量发展显得尤为重要。因此,通过探究影响江西省财政收入的关键经济因素并建立财政收入预测模型,对财政收入情况进行科学分析和准确预测是具有重要意义的。
2. 相关理论及模型介绍
2.1. LASSO变量选择方法
Lassso方法是通过构造一个精炼模型,并对其进行不断地压缩,使得一些变量系数为零,最终达到变量简化的效果 [2] 。
给定数据集
,其中
,最简单的线性回归模型,以平方误差为损失函数,则优化目标为
(1)
当样本特征很多,但是样本数量相对较少时,上述(1)式就容易陷入过拟合。
为缓解这一问题,对(1)式引入正则化项。
若使用
范数正则化,则有
(2)
其中正则化参数
。上式被称为“岭回归”,通过引入
范数正则化,确实能降低过拟合的风险;
将正则化项中的
范数替换为
范数时,令
,即采用
范数,则有
(3)
其中,正则化参数
,上式被称为Lassso。
范数正则化都能够有效的降低过拟合风险,并且相较于
而言,正则化(Lassso)还有另一个优点:更容易获得稀疏解,即通过它求得的
会有更少的非零分量。
2.2. 灰色系统GM(1,1)模型
灰色预测系统是对既含有已知信息、也含有未知信息的系统进行预测,这也就是在有限的变化范围内的灰色数据系统进行预测 [3] 。其建模过程如下:
首先对原始序列
进行一次累加得到序列
,对
建立一阶线性微分方程为:
(4)
求解微分方程,得到预测模型为:
(5)
将
经过累减还原为
,即
的灰色预测模型为:
(6)
采用后验差检验法进行灰色模型的精度检验。后验差检验的两个重要指标为C (后验差)和P (小误差概率),模型精度等级 [4] 如表1所示。
Table 1. Accuracy grade of grey model
表1. 灰色模型精度等级表
2.3. 反向传播(BP)神经网络
BP神经网络 [5] 是一种按误差反向传播训练的多层前馈网络,其算法称为BP算法 [4] 。其学习算法如下:
1) 用随机数初始化层间节点i和j的连接权
和节点j的阈值
。
2) 读入经预处理的训练样本
和
。
3) 计算各层节点的输出(对第P个样本)
,式中
既是节点i的输出,又是节
点j的输出。
4) 计算各层节点的误差信号
输出层:
隐含层:
5) 反向传播
权值修正:
阈值修正:
式中
为学习因子,
为加速收敛的动量因子。
6) 计算误差
2.4. 组合预测
灰色预测GM(1,1)模型是根据样本数据的具体分布情况和随机性质,通过常用的关联分析对样本数据进行分析后,将原本不平稳的样本数据,利用累加函数使其变成单调递增的数据模型,这种累加模型往往适用于指数型的时间序列数据,但如果数据之间是一种非线性的函数关系,那么这种模型就不能够体现出来。
人工神经网络预测模型作为一种非线性自适应的预测模型,具有高度的非线性函数映射能力,这种性质使得神经网络适合应用于存在多因素并且非线性联系的高维复杂问题上,因此它可以反映模型因素之间的非线性函数关系。作为目前人工网络模型中使用范围最广的BP神经网络模型,它能够处理绝大多数的非线性的数据序列关系,而且模型能够科学全面地反映样本数列的复杂性,同时还能保证较高的预测精度。
因此本文结合两种预测方法优缺点,可以将两个单一的预测模型进行组合,这样一方面可以实现两个模型的优势互补,另一方面又较好地消除了两者不足,在最大程度上又保证了模型的预测精度。
3. 数据来源与变量说明
本文使用的数据主要来自于2006~2021年《江西省统计年鉴》,部分数据参考了《中国统计年鉴》和《中国经济统计年鉴》,其中包含19个影响江西省财政收入的解释变量 [6] ,主要包括地区生产总值、税收收入、农村人均消费支出等,如下表2所示。
Table 2. Symbol description of fiscal revenue and influencing factors of Jiangxi Province
表2. 江西省财政收入及影响因素符号说明
4. 实证分析
基于以上三大主要统计理论及预测方法的基础上,运用江西省2006~2020年财政收入及相关影响因素数据,分别依次利用LASSO模型、灰色预测GM(1,1)模型与神经网络组合模型,进行分析研究 [7] 。
4.1. 数据预处理
4.1.1. 相关分析
根据江西省历年的经济数据,利用eviews软件对以上各经济指标进行相关性分析。通过eviews软件计算出因变量与各自变量之间的相关系数,根据相关系数的大小来判断变量与因变量之间的关系,从而把和因变量没有关联的自变量进行删除 [8] 。
查询资料后,选用Pear-son对变量与因变量之间的关系进行检验,其公式为:
其中是
变量X和变量Y之间的协方差;
是变量X的方差;
是变量Y的方差。
地方财政收入与各经济指标之间的相关系数的具体情况,如下表3所示。
注:**在0.01水平(双侧)上显著相关。
从上表3中,可以看出地方财政收入与各经济指标之间的相关程度都很高,平均在0.9以上。经过相关分析可知,各变量与地方财政收入之间的相关性都非常高,因此我们可以选取这些变量对地方财政收入进行建模,并预测江西省未来几年的地方财政收入值。
4.1.2. 多重共线性检验
多重共线性现象是指两个或多个解释变量之间存在相关关系的现象。严重的多重共线性会导致最小二乘(ols)估计的结果不稳定。此外,解释变量之间的相关关系会导致单个解释变量对响应变量的影响无法确定,使得模型结果不易解释。因此在建立模型前,需要对可能存在严重多重共线性性的问题进行进一步的分析和检验。
多重共线性的程度可以用条件数k来度量,条件数的定义为:
其中
是
的特征值,X是解释变量构成的矩阵。一般认为,当
,解释变量间存在共线性问题,当
,解释变量间存在严重的共线性性。
利用R语言中的kappa()函数,得到条件数为
,即各解释变量间存在严重的多重共线性,因此不能通过建立简单的多元回归模型来分析影响财政收入的主要因素。
对于解释变量间存在多重共线性性的问题,目前已有的针对财政收入影响因素的研究常采用逐步回归方法或岭回归方法来进行处理,通过逐步回归或岭回归的方法来对解释变量进行筛选,从而降低解释变量间的共线性性。考虑到本文所研究的解释变量的个数p是大于样本数n的,因此本文选择了处理高维数据问题常用的LASSO法来进行变量选择。
4.1.3. 标准化处理
为了使模型不受各解释变量大小和单位的限制,在建模前先对数据进行标准化处理,将其转化为无量纲的纯数值。
4.2. 基于LASSO回归模型的影响因素选取
本文将影响江西省财政收入的19个因素和被解释变量的历史数据带入模型,利用R软件lars()函数对LASSO问题求解,LASSO求解路径如图1所示。
在变量选择的过程中,最重要的是选择合适的
值。利用R软件的cv.glmnet()函数进行交叉验证法(CV),从中选择最佳参数值,CV变化过程如图2所示。
最后,LASSO变量筛选的结果如表4所示。
Table 4. LASSO variable selection coefficient table
表4. LASSO变量选择系数表
由表2可以看出,使用LASSO回归方法选取的影响江西省地方财政收入的关键影响因素有6个,分别是X5、X6、X7、X8、X13、X14。
4.3. 基于灰色预测模型的单个因素预测
本文将LASSO变量选择方法 [7] 筛选出的影响江西省财政收入的6个主要因素,建立灰色系统GM(1,1)模型,利用R语言构建预测模型,求得相关因素精度表 [9] 如下表5所示。
Table 5. Precision table of related factors of GM(1,1) model of local fiscal revenue in Jiangxi Province
表5. 江西省地方财政收入GM(1,1)模型相关因素精度表
因为灰色预测GM(1,1)模型程序比较繁琐复杂,因此本文通过从外部加载代码的形式将其引入R语言中,然后得到了单个变量真实值与预测值图,如下图3所示。
从图3中可以说明,利用GM(1,1)模型对这6个变量进行预测时,预测结果较为理想,因此本文将这6个变量一起加入到后面的神经网络中,然后对江西省财政收入进行预测。
4.4. 江西省财政收入的神经网络预测
通过运用GM(1,1)模型本文得出的6个解释变量2021~2025年5年的预测数据,并将其上述结果及历史数据带入到江西省地方财政收入所建立的神经网络模型中,如图4所示。
之后,我们对其做了20次的灰色神经网络预测,得到了20组江西省2021~2025年财政收入的预测值,我们取其平均数之后,最后得出:江西省2020~2025年5年的预测值分别为2824.970亿元、3007.592亿元、3202.021亿元、3409.018亿元、3629.396亿元。相关数据如下表6所示,其中加粗字体为预测数据。
Table 6. Historical data and forecast of local fiscal revenue and its related factors
表6. 地方财政收入及其相关因素历史数据和预测表
Figure 5. Real and predicted local fiscal revenue of Jiangxi Province from 2006 to 2025
图5. 2006~2025年江西省地方财政收入真实值与预测值
由图5,由财政收入真实值和预测值对比图可看出,该模型很好的拟合了财政收入的变化情况。
4.5. 模型评价
采用模型指标体系对建立的江西省财政收入预测模型进行评估,结果如表7所示。
Table 7. Evaluation index value of fiscal revenue forecast model of Jiangxi Province
表7. 江西省财政收入预测模型评估指标值
在模型评价指标中,模型具有很高的预测精度,可以为政府相关部门的财政决策与管理工作提供参考依据。
5. 结论与建议
本文考虑了灰色系统GM(1,1)模型和反向传播(BP)神经网络模型两种预测方法的优缺点,将两个单一的预测模型进行组合。这样既可以实现两个模型的优势互补,又能很好地消除了两者不足,在最大程度上保证了模型的预测精度。
在实证过程中,结合江西省实际情况,考虑了诸多对江西省财政收入有较大影响的因素,并利用LASSO变量筛选方法对初步选择的19个变量进行筛选,再采用GM(1,1)分别对主要指标序列进行预测,最后利用BP神经网络建立地方财政收入预测的组合预测模型。由于组合模型考虑了多指标的共同作用,较好的改善了综合指标的预测精度,最后得出的,江西省2020~2025年5年的预测值分别为2824.970亿元、3007.592亿元、3202.021亿元、3409.018亿元、3629.396亿元,其精确度达到了95.33%。