财政收入是国家建设和治理的基础和重要保障,它不仅能够综合反映出国民经济状况,也为国家政府对市场经济进行宏观调控奠定了基础。本文以江西省财政收入为例,收集当地近20年的相关数据进行实证分析。首先利用LASSO回归分析筛选出影响江西省财政收入的重要因子,将其作为预测模型的变量。然后将灰色GM(1,1)与BP神经网络结合起来,先利用GM(1,1)拟合得到2025年各变量的估计值,再将这些估计值作为BP神经网络的输入,输出值即为江西省2025年的财政收入预测值。实验结果表明,预测模型精度较高,可为当地政府制定相关财政政策给出理论参考。 Fiscal revenue is the basis and important guarantee for national construction and governance. It can not only comprehensively reflect the state of the national economy, but also lay the foundation for the national government to carry out macro-control over the market economy. This paper takes the fiscal revenue of Jiangxi Province as an example and collects the relevant data in the past 20 years for empirical analysis. First of all, LASSO regression analysis was used to screen out the important factors affecting the fiscal revenue of Jiangxi Province and take them as the variables of the prediction model. Then the grey GM(1,1) is combined with BP neural network, and the estimated value of each variable in 2025 is obtained by the fitting of GM(1,1). Then these estimated values are used as the input of BP neural network, and the output value is the predicted fiscal revenue value of Jiangxi Province in 2025. The experimental results show that the prediction model has high accuracy and can provide theoretical reference for local government to formulate relevant fiscal policies.
财政收入是国家建设和治理的基础和重要保障,它不仅能够综合反映出国民经济状况,也为国家政府对市场经济进行宏观调控奠定了基础。本文以江西省财政收入为例,收集当地近20年的相关数据进行实证分析。首先利用LASSO回归分析筛选出影响江西省财政收入的重要因子,将其作为预测模型的变量。然后将灰色GM(1,1)与BP神经网络结合起来,先利用GM(1,1)拟合得到2025年各变量的估计值,再将这些估计值作为BP神经网络的输入,输出值即为江西省2025年的财政收入预测值。实验结果表明,预测模型精度较高,可为当地政府制定相关财政政策给出理论参考。
财政收入预测,GM(1,1)模型,BP神经网络,LASSO模型
Shucong Gong
Jiangxi University of Finance and Economics, Nanchang Jiangxi
Received: Jan. 23rd, 2023; accepted: Feb. 13th, 2023; published: Feb. 27th, 2023
Fiscal revenue is the basis and important guarantee for national construction and governance. It can not only comprehensively reflect the state of the national economy, but also lay the foundation for the national government to carry out macro-control over the market economy. This paper takes the fiscal revenue of Jiangxi Province as an example and collects the relevant data in the past 20 years for empirical analysis. First of all, LASSO regression analysis was used to screen out the important factors affecting the fiscal revenue of Jiangxi Province and take them as the variables of the prediction model. Then the grey GM(1,1) is combined with BP neural network, and the estimated value of each variable in 2025 is obtained by the fitting of GM(1,1). Then these estimated values are used as the input of BP neural network, and the output value is the predicted fiscal revenue value of Jiangxi Province in 2025. The experimental results show that the prediction model has high accuracy and can provide theoretical reference for local government to formulate relevant fiscal policies.
Keywords:Fiscal Revenue Forecast, GM (1,1) Model, BP Neural Network, LASSO Model
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
在十九大报告中,明确提出“加快建立现代财政制度,充分发挥财政政策的导向作用,努力提高经济发展的质量和效益,推进国家治理体系和治理能力现代化”。财政收入在一定程度上是一个国家国民经济实力映现的窗口,也是国家进行资源配置优化、促进社会公平、改善民生的重要经济杠杆 [
从地方层面上来说,地方财政作为我国的财政的重要组成部分,是地区经济建设发展的重要保证,也是促进其经济平稳运行的物质基础。对地方财政收入进行分析和预测,可以有效克服地方财政预算与收支失衡的问题,有助于加强相关部门拟订预算及财政政策,以此改进地方财政收入预测模型的科学性、预测的客观性、规划的前瞻性。
从2020年开始,新冠疫情持续地影响着全省甚至全世界经济的正常运转,为经济的稳定发展带来了很大的压力。如何把准各自定位,发挥各自优势,进一步提升经济实力,优化财政分配和配置,拉动财政收入的增长,促进江西省经济高质量发展显得尤为重要。因此,通过探究影响江西省财政收入的关键经济因素并建立财政收入预测模型,对财政收入情况进行科学分析和准确预测是具有重要意义的。
Lassso方法是通过构造一个精炼模型,并对其进行不断地压缩,使得一些变量系数为零,最终达到变量简化的效果 [
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } ,其中 x ∈ ℜ d ,最简单的线性回归模型,以平方误差为损失函数,则优化目标为
min ω ∑ i − 1 m ( y i − ω T x i ) 2 (1)
当样本特征很多,但是样本数量相对较少时,上述(1)式就容易陷入过拟合。
为缓解这一问题,对(1)式引入正则化项。
若使用 L 2 范数正则化,则有
min ω ∑ i − 1 m ( y i − ω T x i ) 2 + λ ‖ ω ‖ 2 2 (2)
其中正则化参数 λ > 0 。上式被称为“岭回归”,通过引入 L 2 范数正则化,确实能降低过拟合的风险;
将正则化项中的 L 2 范数替换为 L P 范数时,令 p = 1 ,即采用 L 1 范数,则有
min ω ∑ i − 1 m ( y i − ω T x i ) 2 + λ ‖ ω ‖ 1 (3)
其中,正则化参数 λ > 0 ,上式被称为Lassso。
L 1 范数正则化都能够有效的降低过拟合风险,并且相较于 L 2 而言,正则化(Lassso)还有另一个优点:更容易获得稀疏解,即通过它求得的 ω 会有更少的非零分量。
灰色预测系统是对既含有已知信息、也含有未知信息的系统进行预测,这也就是在有限的变化范围内的灰色数据系统进行预测 [
首先对原始序列 X ( 0 ) = { x ( 0 ) ( i ) , i = 1 , 2 , ⋯ , n } 进行一次累加得到序列 X ( 1 ) = { x ( 1 ) ( i ) , i = 1 , 2 , ⋯ , n } ,对 X ( 1 ) 建立一阶线性微分方程为:
d X ( 1 ) d t + a X ( 1 ) = u (4)
求解微分方程,得到预测模型为:
X ^ ( 1 ) ( k + 1 ) = [ X ^ ( 1 ) ( 0 ) − u ^ a ^ ] e − a ^ k (5)
将 X ^ ( 1 ) ( k + 1 ) 经过累减还原为 X ^ ( 0 ) ( k + 1 ) ,即 X ( 0 ) 的灰色预测模型为:
X ^ ( 0 ) ( k + 1 ) = ( e − a ^ − 1 ) [ X ^ ( 1 ) ( 0 ) − u ^ a ^ ] e − a ^ k (6)
采用后验差检验法进行灰色模型的精度检验。后验差检验的两个重要指标为C (后验差)和P (小误差概率),模型精度等级 [
等级 | 后验差比值C | 小误差频率P |
---|---|---|
一级 | C ≤ 0.35 | P ≥ 0.95 |
二级 | 0.35 < C ≤ 0.5 | 0.8 ≤ P < 0.95 |
三级 | 0.5 < C ≤ 0.65 | 0.7 ≤ P < 0.80 |
四季 | 0.65 < C | P < 0.7 |
表1. 灰色模型精度等级表
BP神经网络 [
1) 用随机数初始化层间节点i和j的连接权 W i j 和节点j的阈值 θ j 。
2) 读入经预处理的训练样本 { X P L } 和 { Y P K } 。
3) 计算各层节点的输出(对第P个样本) O p j = f ∑ i ( W i j I p i − θ j ) ,式中 I p i 既是节点i的输出,又是节
点j的输出。
4) 计算各层节点的误差信号
输出层: δ p k = O p k ( y p k − O p k ) ( 1 − O p k )
隐含层: O p i = O p i ( 1 − O p i ) ∑ i δ p i W i j
5) 反向传播
权值修正: W i j ( t + 1 ) = α δ p i O p i + W i j ( t )
阈值修正: θ j ( t + 1 ) = θ j ( t ) + β δ p i
式中 α 为学习因子, β 为加速收敛的动量因子。
6) 计算误差
E p = ( ∑ p ∑ k ) ( O p k − Y p k ) 2 / 2
灰色预测GM(1,1)模型是根据样本数据的具体分布情况和随机性质,通过常用的关联分析对样本数据进行分析后,将原本不平稳的样本数据,利用累加函数使其变成单调递增的数据模型,这种累加模型往往适用于指数型的时间序列数据,但如果数据之间是一种非线性的函数关系,那么这种模型就不能够体现出来。
人工神经网络预测模型作为一种非线性自适应的预测模型,具有高度的非线性函数映射能力,这种性质使得神经网络适合应用于存在多因素并且非线性联系的高维复杂问题上,因此它可以反映模型因素之间的非线性函数关系。作为目前人工网络模型中使用范围最广的BP神经网络模型,它能够处理绝大多数的非线性的数据序列关系,而且模型能够科学全面地反映样本数列的复杂性,同时还能保证较高的预测精度。
因此本文结合两种预测方法优缺点,可以将两个单一的预测模型进行组合,这样一方面可以实现两个模型的优势互补,另一方面又较好地消除了两者不足,在最大程度上又保证了模型的预测精度。
本文使用的数据主要来自于2006~2021年《江西省统计年鉴》,部分数据参考了《中国统计年鉴》和《中国经济统计年鉴》,其中包含19个影响江西省财政收入的解释变量 [
符号 | 含义 | 单位 |
---|---|---|
X1 | 第一产业产值 | 亿元 |
X2 | 第二产业产值 | 亿元 |
X3 | 第三产业产值 | 亿元 |
X4 | 地区生产总值 | 亿元 |
X5 | 税收收入 | 亿元 |
X6 | 农村人均消费支出 | 元 |
X7 | 城镇人均消费支出 | 元 |
X8 | 农村居民人均可支配收入 | 元 |
X9 | 城镇居民人均可支配收入 | 元 |
X10 | 外商直接投资 | 万美元 |
X11 | 教育支出 | 万元 |
X12 | 科学技术支出 | 万元 |
X13 | 农林水支出 | 万元 |
X14 | 存款余额 | 亿元 |
X15 | 贷款余额 | 亿元 |
X16 | 普通高等学校毕业人数 | 人 |
X17 | 建筑业总产值 | 亿元 |
X18 | 出口总值 | 万美元 |
X19 | 进口总值 | 万美元 |
表2. 江西省财政收入及影响因素符号说明
基于以上三大主要统计理论及预测方法的基础上,运用江西省2006~2020年财政收入及相关影响因素数据,分别依次利用LASSO模型、灰色预测GM(1,1)模型与神经网络组合模型,进行分析研究 [
根据江西省历年的经济数据,利用eviews软件对以上各经济指标进行相关性分析。通过eviews软件计算出因变量与各自变量之间的相关系数,根据相关系数的大小来判断变量与因变量之间的关系,从而把和因变量没有关联的自变量进行删除 [
查询资料后,选用Pear-son对变量与因变量之间的关系进行检验,其公式为:
p = C o v ( X , Y ) V a r ( X ) V a r ( Y )
其中是 C o v ( X , Y ) 变量X和变量Y之间的协方差; V a r ( X ) 是变量X的方差; V a r ( Y ) 是变量Y的方差。
地方财政收入与各经济指标之间的相关系数的具体情况,如下表3所示。
R2 | x1 | x2 | x3 | x4 | x5 | x6 | x7 |
---|---|---|---|---|---|---|---|
Y | 0.981** | 0.985** | 0.940** | 0.973** | 0.998** | 0.959** | 0.975** |
R2 | x8 | x9 | x10 | x11 | x12 | x13 | x14 |
Y | 0.971** | 0.973** | 0.835** | 0.982** | 0.885** | 0.991** | 0.961** |
R2 | x15 | x16 | x17 | x18 | x19 | ||
Y | 0.914** | 0.771** | 0.954** | 0.976** | 0.913** |
表3. 相关系数
注:**在0.01水平(双侧)上显著相关。
从上表3中,可以看出地方财政收入与各经济指标之间的相关程度都很高,平均在0.9以上。经过相关分析可知,各变量与地方财政收入之间的相关性都非常高,因此我们可以选取这些变量对地方财政收入进行建模,并预测江西省未来几年的地方财政收入值。
多重共线性现象是指两个或多个解释变量之间存在相关关系的现象。严重的多重共线性会导致最小二乘(ols)估计的结果不稳定。此外,解释变量之间的相关关系会导致单个解释变量对响应变量的影响无法确定,使得模型结果不易解释。因此在建立模型前,需要对可能存在严重多重共线性性的问题进行进一步的分析和检验。
多重共线性的程度可以用条件数k来度量,条件数的定义为:
k = λ max λ min
其中 λ 是 X T X 的特征值,X是解释变量构成的矩阵。一般认为,当 K > 15 ,解释变量间存在共线性问题,当 K > 31 ,解释变量间存在严重的共线性性。
利用R语言中的kappa()函数,得到条件数为 K = 1 .553181e + 18 ,即各解释变量间存在严重的多重共线性,因此不能通过建立简单的多元回归模型来分析影响财政收入的主要因素。
对于解释变量间存在多重共线性性的问题,目前已有的针对财政收入影响因素的研究常采用逐步回归方法或岭回归方法来进行处理,通过逐步回归或岭回归的方法来对解释变量进行筛选,从而降低解释变量间的共线性性。考虑到本文所研究的解释变量的个数p是大于样本数n的,因此本文选择了处理高维数据问题常用的LASSO法来进行变量选择。
为了使模型不受各解释变量大小和单位的限制,在建模前先对数据进行标准化处理,将其转化为无量纲的纯数值。
本文将影响江西省财政收入的19个因素和被解释变量的历史数据带入模型,利用R软件lars()函数对LASSO问题求解,LASSO求解路径如图1所示。
图1. LASSO求解路径
在变量选择的过程中,最重要的是选择合适的 λ 值。利用R软件的cv.glmnet()函数进行交叉验证法(CV),从中选择最佳参数值,CV变化过程如图2所示。
图2. CV选择过程
最后,LASSO变量筛选的结果如表4所示。
X1 | X2 | X3 | X4 | X5 |
---|---|---|---|---|
0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 | 7.641881e−01 |
X6 | X7 | X8 | X9 | X10 |
2.073357e−02 | 1.135911e−02 | 2.808843e−02 | 0.0000000 | 0.0000000 |
X11 | X12 | X13 | X14 | X15 |
0.0000000 | 0.0000000 | 1.478171e−01 | 1.198857e−02 | 0.0000000 |
X16 | X17 | X18 | X19 | |
0.0000000 | 0.0000000 | 0.0000000 | 0.0000000 |
表4. LASSO变量选择系数表
由表2可以看出,使用LASSO回归方法选取的影响江西省地方财政收入的关键影响因素有6个,分别是X5、X6、X7、X8、X13、X14。
本文将LASSO变量选择方法 [
变量 | X5 | X6 | X7 | X8 | X13 | X14 |
---|---|---|---|---|---|---|
2021 | 2288.6507 | 15846.875 | 25877.606 | 19667.077 | 8865747 | 53359.567 |
2022 | 2529.7839 | 17791.701 | 28007.301 | 21761.207 | 9820774 | 60781.111 |
2023 | 2796.3230 | 19975.207 | 30312.267 | 24078.317 | 10878678 | 69234.885 |
2024 | 3090.9447 | 22426.687 | 32806.929 | 26642.150 | 12050540 | 78864.455 |
2025 | 3416.6079 | 25179.028 | 35506.899 | 29478.978 | 13348637 | 89833.360 |
均方差比值C | 0.3416135 | 0.1053796 | 0.1161813 | 0.09310398 | 0.2908496 | 0.1121744 |
小误差概率P | 2 | 2 | 2 | 2 | 2 | 2 |
精度等级 | 好 | 好 | 好 | 好 | 好 | 好 |
表5. 江西省地方财政收入GM(1,1)模型相关因素精度表
因为灰色预测GM(1,1)模型程序比较繁琐复杂,因此本文通过从外部加载代码的形式将其引入R语言中,然后得到了单个变量真实值与预测值图,如下图3所示。
图3. 真实值–预测值
从图3中可以说明,利用GM(1,1)模型对这6个变量进行预测时,预测结果较为理想,因此本文将这6个变量一起加入到后面的神经网络中,然后对江西省财政收入进行预测。
通过运用GM(1,1)模型本文得出的6个解释变量2021~2025年5年的预测数据,并将其上述结果及历史数据带入到江西省地方财政收入所建立的神经网络模型中,如图4所示。
图4. 神经网络拓扑图
之后,我们对其做了20次的灰色神经网络预测,得到了20组江西省2021~2025年财政收入的预测值,我们取其平均数之后,最后得出:江西省2020~2025年5年的预测值分别为2824.970亿元、3007.592亿元、3202.021亿元、3409.018亿元、3629.396亿元。相关数据如下表6所示,其中加粗字体为预测数据。
年份 | X5 | X6 | X7 | X8 | X13 | X14 | Y |
---|---|---|---|---|---|---|---|
2006 | 208.71 | 2688.84 | 6645.54 | 3541.00 | 726157 | 5213.76 | 305.52 |
2007 | 281.86 | 2994.49 | 7810.73 | 4151.80 | 1035666 | 5900.06 | 389.85 |
2008 | 357.96 | 3309.21 | 8717.37 | 4835.27 | 1478653 | 7206.56 | 488.65 |
2009 | 430.02 | 3532.66 | 9739.99 | 5238.02 | 2034071 | 9296.39 | 581.30 |
2010 | 585.11 | 3911.61 | 10618.69 | 5991.17 | 2323354 | 11846.18 | 778.09 |
2011 | 777.09 | 4660.09 | 11747.65 | 7132.77 | 2879919 | 14240.29 | 1053.43 |
2012 | 978.08 | 5129.78 | 12775.65 | 8103.39 | 3847674 | 16715.91 | 1371.99 |
2013 | 1178.74 | 6793.99 | 13843.00 | 9089.00 | 4385353 | 19434.75 | 1621.24 |
2014 | 1381.13 | 7548.00 | 15142.00 | 10117.00 | 5001512 | 21537.74 | 1881.83 |
2015 | 1517.03 | 8486.00 | 16731.81 | 11139.08 | 5572959 | 24785.15 | 2165.74 |
2016 | 1471.10 | 9128.00 | 17695.65 | 12137.72 | 5808964 | 28893.11 | 2151.47 |
2017 | 1515.01 | 9870.00 | 19244.46 | 13241.82 | 6077087 | 32324.91 | 2247.06 |
2018 | 1663.15 | 10885.00 | 20760.02 | 14459.89 | 5994078 | 35069.51 | 2373.01 |
2019 | 1747.63 | 12497.00 | 22714.27 | 15796.29 | 6198025 | 38952.53 | 2487.39 |
2020 | 1701.92 | 13579.00 | 22134.31 | 16980.84 | 7403133 | 43608.17 | 2507.54 |
2021 | 2288.6507 | 15846.875 | 25877.606 | 19667.077 | 8865747 | 53359.567 | 2824.970 |
2022 | 2529.7839 | 17791.701 | 28007.301 | 21761.207 | 9820774 | 60781.111 | 3007.592 |
2023 | 2796.3230 | 19975.207 | 30312.267 | 24078.317 | 10878678 | 69234.885 | 3202.021 |
2024 | 3090.9447 | 22426.687 | 32806.929 | 26642.150 | 12050540 | 78864.455 | 3409.018 |
2025 | 3416.6079 | 25179.028 | 35506.899 | 29478.978 | 13348637 | 89833.360 | 3629.396 |
表6. 地方财政收入及其相关因素历史数据和预测表
图5. 2006~2025年江西省地方财政收入真实值与预测值
由图5,由财政收入真实值和预测值对比图可看出,该模型很好的拟合了财政收入的变化情况。
采用模型指标体系对建立的江西省财政收入预测模型进行评估,结果如表7所示。
预测精度(%) | 平均绝对误差(亿元) | 均方根误差(亿元) | 平均绝对百分比误差(%) |
---|---|---|---|
95.33 | 92.86 | 112.59 | 5 |
表7. 江西省财政收入预测模型评估指标值
在模型评价指标中,模型具有很高的预测精度,可以为政府相关部门的财政决策与管理工作提供参考依据。
本文考虑了灰色系统GM(1,1)模型和反向传播(BP)神经网络模型两种预测方法的优缺点,将两个单一的预测模型进行组合。这样既可以实现两个模型的优势互补,又能很好地消除了两者不足,在最大程度上保证了模型的预测精度。
在实证过程中,结合江西省实际情况,考虑了诸多对江西省财政收入有较大影响的因素,并利用LASSO变量筛选方法对初步选择的19个变量进行筛选,再采用GM(1,1)分别对主要指标序列进行预测,最后利用BP神经网络建立地方财政收入预测的组合预测模型。由于组合模型考虑了多指标的共同作用,较好的改善了综合指标的预测精度,最后得出的,江西省2020~2025年5年的预测值分别为2824.970亿元、3007.592亿元、3202.021亿元、3409.018亿元、3629.396亿元,其精确度达到了95.33%。
龚淑聪. 江西省地方财政收入预测与研究Forecast and Research on Local Fiscal Revenue of Jiangxi Province[J]. 统计学与应用, 2023, 12(01): 224-234. https://doi.org/10.12677/SA.2023.121023