随着科学技术的不断发展,大数据应用的越来越普及,已成为提高财政收入的有力工具。本文以1994~2019年数据为依托,借助R统计软件,首先对财政收入、第一产业增加值、工业增加值、建筑业增加值、年末总人口、社会消费品零售总额和受灾面积这六个方面的原始数据进行相关性分析,运用Lasso回归方法识别影响财政收入的关键特征,然后将灰色模型和支持向量回归预测模型相结合,对未来两年的财政收入进行预测,最后对建立的财政收入预测模型进行评价。 With the continuous development of science and technology, the application of big data has become more and more popular, and it has become a powerful tool to increase fiscal revenue. Firstly, the relativity of data from 1994 to 2019 among fiscal revenue, primary industry added value, industrial added value, construction industry added value, total population at the end of the year, total retail sales of consumer goods, and disaster-affected area is analyzed by R software in this article. And using the Lasso regression method to choose the key features that affect fiscal revenue. Then we combine the gray model and the support vector regression prediction model to predict the fiscal revenue for the next two years. Finally, the established fiscal revenue forecast model is evaluated.
随着科学技术的不断发展,大数据应用的越来越普及,已成为提高财政收入的有力工具。本文以1994~2019年数据为依托,借助R统计软件,首先对财政收入、第一产业增加值、工业增加值、建筑业增加值、年末总人口、社会消费品零售总额和受灾面积这六个方面的原始数据进行相关性分析,运用Lasso回归方法识别影响财政收入的关键特征,然后将灰色模型和支持向量回归预测模型相结合,对未来两年的财政收入进行预测,最后对建立的财政收入预测模型进行评价。
财政收入预测,灰色GM(1,1),SVR,Lasso回归
Xiaofang Jia1, Weiyan Mu1, Zeyu Li2
1School of Science, Beijing University of Civil Engineering and Architecture, Beijing
2Canvard College, Beijing Technology and Business University, Beijing
Received: Nov. 17th, 2021; accepted: Dec. 1st, 2021; published: Dec. 16th, 2021
With the continuous development of science and technology, the application of big data has become more and more popular, and it has become a powerful tool to increase fiscal revenue. Firstly, the relativity of data from 1994 to 2019 among fiscal revenue, primary industry added value, industrial added value, construction industry added value, total population at the end of the year, total retail sales of consumer goods, and disaster-affected area is analyzed by R software in this article. And using the Lasso regression method to choose the key features that affect fiscal revenue. Then we combine the gray model and the support vector regression prediction model to predict the fiscal revenue for the next two years. Finally, the established fiscal revenue forecast model is evaluated.
Keywords:Fiscal Revenue Prediction, Grey GM(1,1), SVR, Lasso Regression
Copyright © 2021 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
广义的财政收入 [
近年来,国内外许多学者纷纷运用不同统计方法深入研究分析我国财政收入与地方财政收入。根据预测模型的不同主要分为两类:单一型和组合型。2006年文献 [
除此之外,众多学者关于财政收入影响因素的探讨,大部分都是先构建我国财政收入或地方财政收入与待测定的影响要素之间的多元线性回归模型,再使用最小二乘法对所建的回归模型进行系数估计问题,以此来判断彼此之间的关联度,如文献 [
综合考虑,为得到更为准确的预测结果,本文在已有研究的基础上,借由R统计软件进行编程,以1994~2019年我国财政收入和相关特征数据为实例,在Lasso特征选择的基础上,集中讨论灰色GM(1,1)模型和支持向量回归(Support Vector Regression, SVR)的组合预测模型。
首先,对于多维数据的分析与处理,通常的做法是进行变量的选取工作,筛选变量的方法通常有主成分分析法、最小二乘回归法、逐步回归法、岭回归、Lasso回归等多种方法。Lasso (Least Absolute Shrinkage and Selection Operator)回归方法是Robert Tibshirani [
其次,灰色预测法是一种对既包括已知信息又包含不确定信息的系统进行有效预测的方法,在小样本数据集上表现优良。灰色预测是基于灰色模型展开预测分析的,在诸多灰色模型中,应用最广泛的是GM(1,1)模型,它能依据已知的微量信息进行模型的设计和预测,进而挖掘系统中隐含的运行变化趋势。灰色预测方法在信息技术、农业科技、电力工业、文化经济等领域都有很广泛的应用背景,可参考文献 [
综上,本文研究的主要思路与方法如下:首先利用函数计算财政收入、第一产业增加值,工业增加值,建筑业增加值,年末总人口,社会消费品零售总额和受灾面积这七个特征间的Pearson相关系数矩阵;运用Lasso回归法筛选重要特征;接着对单个特征构建灰色预测模型,获得未来两年的预测值;然后再对2019年以前的训练样本构建支持向量回归预测模型,得到2020年和2021年的财政收入预测值;最后给出模型评价与分析。
因为在1994年我国的财政体制发生了重大转变,出现了“分税制”财政体制,这就破坏了财政收入相关数据的关联性,1994年前后的数据不能统一作比较,目前并没有恰当的方法来调整数据发生的变动,因此本文仅收集1994~2019年我国财政收入和相关特征数据,如附表1所示。其中,数据均来源中华人民共和国国家统计局:《中国统计年鉴(1999~2020)》 [
命名 | y | x1 | x2 | x3 | x4 | x5 | x6 |
---|---|---|---|---|---|---|---|
特征 | 财政收入 (亿元) | 第一产业增加值 (亿元) | 工业增加值 (亿元) | 建筑业增加值 (亿元) | 社会消费品零售总额 (亿元) | 年末总人口 (万人) | 受灾面积 (万公顷) |
表1. 特征命名
相关性分析是指对两个或若干个彼此具有关联性的特征元素进行分析,以此作为判断两个特征因素关联程度的度量标准。在统计学中,往往通过相关函数计算Pearson相关系数来进行相关性分析。表2展示了财政收入7个特征间的Pearson相关系数矩阵。
y | x1 | x2 | x3 | x4 | x5 | x6 | |
---|---|---|---|---|---|---|---|
y | 1.00 | 1.00 | 0.36 | 0.99 | 0.99 | 0.92 | −0.93 |
x1 | 1.00 | 1.00 | 0.37 | 0.99 | 0.99 | 0.93 | −0.94 |
x2 | 0.36 | 0.37 | 1.00 | 0.36 | 0.35 | 0.42 | −0.22 |
x3 | 0.99 | 0.99 | 0.36 | 1.00 | 1.00 | 0.90 | −0.92 |
x4 | 0.99 | 0.99 | 0.35 | 1.00 | 1.00 | 0.90 | −0.93 |
x5 | 0.92 | 0.93 | 0.42 | 0.90 | 0.90 | 1.00 | −0.86 |
x6 | −0.93 | −0.94 | −0.22 | −0.92 | −0.93 | −0.86 | 1.00 |
表2. Pearson相关系数矩阵
由表2可知,受灾面积(x6)与财政收入(y)的线性关系不显著,呈现负相关。其余特征均与财政收入呈现高度的正相关关系,按照相关性大小排列依次是x1,x3,x4,x5和x2。与此同时,各个特征之间存在严重的多重共线性,例如特征x1与x3,x4存在严重的共线性,x5与除了x2和x6以外的其他特征有严重的共线性,x6与其他五个特征的共线性不明显。除此之外,x3和x4之间存在完全的共线性。
Lasso回归方法以降阶为主要思想,对特征的系数进行压缩估计并使某些系数变为0,从而达到筛选特征的目的,是一种常用的正则化方法。由表2可知财政收入与各个变量存在严重的多重共线性,这里借用Lasso原理和方法实现关键特征识别是恰当的,Lasso回归系数结果如表3所示。从表3可看出,影响财政收入的关键影响因素是第一产业增加值(x1),建筑业增加值(x3)和社会消费品零售总额(x4)。
系数 | x1 | x2 | x3 | x4 | x5 |
---|---|---|---|---|---|
值 | 1.7145 | 0 | 0.2124 | 0.1304 | 0 |
表3. Lasso回归系数表
基于GM(1,1)预测模型,首先对按照Lasso回归法选取出的三个重要特征:第一产业增加值(x1),建筑业增加值(x3)和社会消费品零售总额(x4)构建灰色预测模型,得到三个特征在2020年和2021年的预测值和后验差检验判别模型精度的结果如表4所示。其中,2020年第一产业增加值,建筑业增加值和社会消费品零售总额预测值分别为82,954.97亿元、102,828.20亿元和578,391.60亿元;2021年第一产业增加值,建筑业增加值和社会消费品零售总额对应的预测值依次是89,800.96亿元、116,399.20亿元和652,459.30亿元。接着将表4的预测结果代入财政收入所构建的支持向量回归预测模型,可得到1994~2021年财政收入的预测值,如表5所示。将财政收入真实值与预测值进行对比,结果如图1所示。
表4显示第一产业增加值,建筑业增加值和社会消费品零售总额这三个特征通过灰色预测模型输出的预测精度等级良好,由图1可观察出建立的预测模型很好地拟合了这26年的财政收入的变化情况,都说明构建的模型具备可行性与可靠性。
x1 | x3 | x4 | |
---|---|---|---|
2020年预测值 | 82,954.97 | 102,828.20 | 578,391.60 |
2021年预测值 | 89,800.96 | 116,399.20 | 652,459.30 |
预测精度等级 | 好 | 好 | 好 |
表4. 灰色预测模型结果
年份 | 真实值 | 预测值 | 年份 | 真实值 | 预测值 |
---|---|---|---|---|---|
1994 | 5218.1 | 8215.242 | 2008 | 61,330.4 | 58,435.739 |
1995 | 6242.2 | 11,192.990 | 2009 | 68,518.3 | 65,721.819 |
1996 | 7408.0 | 13,849.532 | 2010 | 83,101.5 | 79,469.990 |
1997 | 8651.1 | 14,790.181 | 2011 | 103,874.4 | 97,424.230 |
---|---|---|---|---|---|
1998 | 9876.0 | 15,713.670 | 2012 | 117,253.5 | 111,143.228 |
1999 | 11,444.1 | 16,156.034 | 2013 | 129,209.6 | 125,294.884 |
2000 | 13,395.2 | 17,126.316 | 2014 | 140,370.0 | 137,518.197 |
2001 | 16,386.0 | 18,754.307 | 2015 | 152,269.2 | 146,709.549 |
2002 | 18,903.6 | 20,607.325 | 2016 | 159,605.0 | 157,621.870 |
2003 | 21,715.3 | 22,890.646 | 2017 | 172,592.8 | 170,235.019 |
2004 | 26,396.5 | 28,867.003 | 2018 | 183,359.8 | 181,818.079 |
2005 | 31,649.3 | 32,567.917 | 2019 | 190,390.1 | 196,831.631 |
2006 | 38,760.2 | 37,531.066 | 2020 | NA | 237,477.637 |
2007 | 51,321.8 | 46,894.896 | 2021 | NA | 244,818.212 |
表5. 1994~2021年财政收入的预测值
图1. 财政收入真实值与预测值对比图
使用R2值、调整的R2值、平均百分比误差对模型进行检验,检验结果如表6所示。由此表可以看出,平均百分比误差较小,具体值为0.1984144,R2值(0.9957771)与调整的R2值(0.9954099)都特别接近1,由此说明上述建立的支持向量回归模型拟合效果表现优良,可用于对财政收入的预测分析问题中。
指标名称 | 指标结果 |
---|---|
R2值 | 0.9957771 |
调整的R2值 | 0.9954099 |
平均百分比误差 | 0.1984144 |
表6. 模型评价指标结果
因为影响我国财政收入的因素多种多样,而且这些因素彼此之间总是存在多重共线性问题,本文运用Lasso回归方法选择影响财政收入的关键性指标,从Lasso的参数估计系数可以看出影响我国财政收入的六个变量(第一产业增加值,工业增加值,建筑业增加值,年末总人口,社会消费品零售总额和受灾面积)中,第一产业增加值、建筑业增加值,和社会消费品零售总额是表现最为重要的因素,其中第一产业增加值的系数值最大,可见第一产业增加值是影响一个国家经济的最主要原因,因为我国自古以来就是农业大国。农业是人类的生存之本,我国国情决定农业是国民经济的基础与保障,是经济社会发展的“压舱石”。因此,在十四五规划的开局之年,更要持续推进农业绿色、高质、高效发展。
其次建筑业增加值对我国财政收入的影响次之,表明建筑业是我国国民经济的支柱产业,对社会经济发展做出了卓越贡献,因此,在信息飞速发展的时代,要借助数字化、智能化建造技术,促进建筑业转型升级,实现高质量发展,打造“中国建造”品牌。
在变量筛选的基础上,把灰色GM(1,1)模型和支持向量回归模型相结合,以1994~2019年相关数据为例对我国的财政收入做预测分析,通过真实值与预测值的对比图以及R2值、调整的R2值和平均百分比误差验证了所建预测模型的优越性和可靠性。
通过对我国财政收入的预测分析,建议我国政府要着重调整对第一产业、建筑业以及社会消费品零售这几个方面的鼓励政策,加大对第一产业和建筑业的投入力度,努力做好财源建设的优化。具体建议如下:
第一,“农,天下之大业也。”要大力推动中国特色社会主义乡村振兴。优先解决“三农”问题,优先发展农业农村,提高农民合作经济组织的发展;促进多方资源下沉基层,建立健全乡村人才引进制度,加快乡村创新创业队伍建设;缩小城乡区域发展差距,加快农业农村现代化建设步伐,为实现全面建设社会主义现代化国家增添活力!
第二,我国建筑业企业数量繁多,要促进建筑业精益化、智能化、绿色化、工业化“四化”融合发展,升级产业链,提高科技创新能力,努力实现“中国建造”向“中国制造”及“中国创造”的大阔步迈进;借助智能、云端计算等新手段,实现人机合力,提高劳动生产率和产业利用率,推动智能化建筑业领域的发展;立足全球,打造中国建造特色品牌,全面促进建筑业全球化发展,提高中国建筑品牌的国际形象。
第三,在当前疫情的大背景下,优先巩固疫情防控,促进产业转型与升级,刺激消费市场回暖,促进国民经济持续高质量发展。对于政府来说,适当出台减租免租政策,减少零售企业这些中小微企业的资金压力,降低新冠疫情导致的不良影响;对于企业来说,合理发放优惠券,积极发展夜间经济,刺激居民消费;积极响应政府政策,抓住时代机遇,转型升级产业,提高改进技术,顺应消费潮流。
特别感谢北京建筑大学2021年度研究生创新项目(项目编号:PG2021018)对本文的资助。
贾晓芳,牟唯嫣,李泽妤. 基于灰色模型和支持向量回归的财政收入预测Fiscal Revenue Prediction Based on Grey Model and Support Vector Regression[J]. 统计学与应用, 2021, 10(06): 981-988. https://doi.org/10.12677/SA.2021.106103