针对390家上市企业样本,本文首先从获利能力、现金流量、营运能力、发展能力、偿债能力五个维度选取了13个初始财务指标,根据随机森林特征重要性筛选出了6个贡献度最大的最终财务指标。其次,本文建立了基于随机森林特征降维和Adaboost分类预测的RF-Adaboost模型,根据企业T-2年的财务指标预测其在T年是否会被特殊处理。实证结果表明RF-Adaboost模型在测试集上的分类正确率和召回率都达到80%以上。最后,为了验证RF-Adaboost模型的效果,本文还使用了Adaboost模型、LSTM神经网络、RBF-SVM、Linear-SVM、基于核密度估计的朴素贝叶斯模型进行实验,研究结果表明RF-Adaboost在所有模型中表现最好,说明了特征降维的有效性和集成算法的优越性。 Aiming at the samples of 390 listed enterprises, this paper firstly selects 13 initial financial indicators from the 5 dimensions of profitability, cash flow, operating capacity, development capacity and debt paying capacity, then selects 6 final financial indicators with the greatest contribution based on the random forest’ feature importance. Secondly, this paper establishes an RF-Adaboost model based on random forest feature dimension reduction and Adaboost prediction to predict whether the enterprise will be treated specially in year T using the financial indicators data of year T-2. The empirical results show that the classification accuracy and recall rate of RF-Adaboost model on the test set are higher than 80%. Finally, in order to verify the effect of RF-Adaboost model, this paper also uses Adaboost, LSTM neural network, RBF-SVM, Linear-SVM and kernel density naive Bayes models to conduct experiments. The results show that RF-Adaboost performs best among all models, which demonstrates the effectiveness of feature dimension reduction and the superiority of integrated algorithm.
针对390家上市企业样本,本文首先从获利能力、现金流量、营运能力、发展能力、偿债能力五个维度选取了13个初始财务指标,根据随机森林特征重要性筛选出了6个贡献度最大的最终财务指标。其次,本文建立了基于随机森林特征降维和Adaboost分类预测的RF-Adaboost模型,根据企业T-2年的财务指标预测其在T年是否会被特殊处理。实证结果表明RF-Adaboost模型在测试集上的分类正确率和召回率都达到80%以上。最后,为了验证RF-Adaboost模型的效果,本文还使用了Adaboost模型、LSTM神经网络、RBF-SVM、Linear-SVM、基于核密度估计的朴素贝叶斯模型进行实验,研究结果表明RF-Adaboost在所有模型中表现最好,说明了特征降维的有效性和集成算法的优越性。
财务困境预警,随机森林,Adaboost
Yiwen Fang*, Yuanhua Liu
Business School of University of Shanghai for Science and Technology, Shanghai
Received: Jan. 21st, 2023; accepted: Feb. 16th, 2023; published: Feb. 23rd, 2023
Aiming at the samples of 390 listed enterprises, this paper firstly selects 13 initial financial indicators from the 5 dimensions of profitability, cash flow, operating capacity, development capacity and debt paying capacity, then selects 6 final financial indicators with the greatest contribution based on the random forest’ feature importance. Secondly, this paper establishes an RF-Adaboost model based on random forest feature dimension reduction and Adaboost prediction to predict whether the enterprise will be treated specially in year T using the financial indicators data of year T-2. The empirical results show that the classification accuracy and recall rate of RF-Adaboost model on the test set are higher than 80%. Finally, in order to verify the effect of RF-Adaboost model, this paper also uses Adaboost, LSTM neural network, RBF-SVM, Linear-SVM and kernel density naive Bayes models to conduct experiments. The results show that RF-Adaboost performs best among all models, which demonstrates the effectiveness of feature dimension reduction and the superiority of integrated algorithm.
Keywords:Financial Distress Warning, Randomforest, Adaboost
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
随着经济全球化的不断发展,我国的市场竞争环境愈发激烈。企业的财务状况是影响其未来发展的重要因素之一 [
目前,财务困境预警一般是通过建立财务指标体系来对企业的财务状况进行预测 [
在机器学习模型应用过程中,采用集成算法的模型的泛化效果往往优于单一模型,常见的集成算法有boosting,bagging,stacking等。目前,集成学习模型在企业财务困境预警方面的应用相对较少,因此本文采用了boosting算法的典型模型Adaboost对上市企业进行财务困境预警研究。另外,为了能从多个方面反映企业的财务情况,财务困境预警模型中选取的指标一般较多,本文创新性地利用随机森林特征重要性剔除掉贡献度低的指标来进行降维,降低训练复杂度的同时直观反映了各财务指标在财务困境预警中的重要性,从而挖掘出需要企业经营者重点关注的财务指标。
Adaboost是Boosting算法的代表,其核心思想是通过迭代训练不同的弱分类器,构成一个强分类器。Adaboost进行多轮分类训练,每轮训练会提高前一轮被弱分类器误分的样本的权重,降低那些被正确分类的样本的权重。对于不同的弱分类器,Adaboost采取加权投票的方法,加大分类正确率高的弱分类器的权重,减小分类正确率低的弱分类器的权重,从而使得表现好的弱分类器在表决中起到较大作用,表现差的弱分类器在表决中起到较小作用。其主要步骤如下:
1) 设有M个样本,初始时赋予每个样本相等的权重
w t ( i ) = 1 M , i = 1 , 2 , ⋯ , M (1)
其中, w t ( i ) 表示在第t次迭代中样本i的权重。
2) 使用具有以上权重分布的 w t 进行训练,得到弱分类器 C t ( x ) ,其分类错误率 e t 为
e t = 1 M ∑ i = 1 M e i (2)
3) 根据上一轮迭代中各弱分类器的表现,计算 C t ( x ) 在强分类器中所占的比重 α t
α t = 1 2 log ( 1 − e t e t ) (3)
4) 更新权重分布
w t + 1 = w t z t exp ( − α t y i C t ( x ) ) (4)
z t = ∑ i = 1 M w t exp ( − α t y i C t ( x ) ) (5)
其中, z t 为归一化因子。
5) 重复步骤(2)到(4),直至计算出所有弱分类器的比重,并根据比重组合得到强分类器 S ( x ) [
S ( x ) = sign ( ∑ i = 1 M α t C t ( x ) ) (6)
本文建立的基于RF-Adaboost的财务困境预警模型流程如图1所示。首先从营运能力、获利能力、现金流量、发展能力与偿债能力五个维度建立初始财务指标体系,其次对上市企业样本的财务指标数据进行归一化处理和随机森林特征降维得到最终财务指标体系,再利用Adaboost模型对上市企业是否会陷入财务困境进行预测。
关于财务困境预警指标的选取,根据前人的研究成果发现非财务指标的选取较为主观,因此本文仍然选择建立财务指标体系来进行研究。杨钰晨等从现金流、偿债能力、盈利能力等方面选择多个财务指标建立了BP神经网络模型进行上市公司财务预警,取得了良好的预测效果 [
图1. 建模流程
维度 | 财务指标 | 含义 |
---|---|---|
获利能力 | X1:总资产报酬率(%) | 总资产报酬率 = 息税前利润总额/资产平均总额 |
X2:净资产收益率(%) | 净资产收益率 = 净利润/平均所有者权益 | |
现金流量 | X3:营业收入现金比率(%) | 营业收入现金比率 = 营业现金流量净额/营业收入 |
X4:现金回收率(%) | 现金回收率 = 经营现金流量净额/平均资产总额 | |
营运能力 | X5:流动资产周转率(次) | 流动资产周转率 = 营业收入/流动资产平均占用额 |
X6:总资产周转率(次) | 总资产周转率 = 营业收入/资产平均占用额 | |
X7:应收账款周转率(次) | 应收账款周转率 = 营业收入/应收账款平均余额 | |
发展能力 | X8:总资产增长率(%) | 总资产增长率 = 本年总资产增长额/年初资产总额 |
X9:净利润增长率(%) | 净利润增长率 = 本年净利润增长额/上年净利润总额 | |
X10:营业收入增长率(%) | 营业收入增长率 = 本年营业收入增长额/上年营业收入总额 | |
偿债能力 | X11:流动比率 | 流动比率 = 流动资产/流动负债 |
X12:资产负债率(%) | 资产负债率 = 负债总额/资产总额 | |
X13:权益对负债比率 | 权益对负债比率 = 股东权益/负债总额 |
表1. 初始财务指标
根据我国证监会规定,连续两年出现亏损的企业会被特殊处理,股票前将被加上“ST”标记,若其连续三年出现亏损则面临退市风险,警告退市风险采用“*ST”标记。因此,企业股票被标记为ST或*ST可以作为企业陷入财务困境的标志。本文选取了2019~2021年沪深两市和北交所共195家被标记为ST或*ST的企业作为陷入财务困境的企业样本,为了避免样本类别不均衡问题,本文按照1:1的比例选取了195家与陷入财务困境的企业的资产规模、所在行业相近的非ST公司作为财务健康企业样本。
由于我国上市公司在T年是否会被特殊处理取决于其公布的T-1年的财务报告,使用T-1年的财务指标数据预测企业在T年是否会被特殊处理没有实际意义,因此本文采取上市公司在T-2年的财务指标数据构建模型来预测其在T年是否会被特殊处理 [
数据归一化是建模的一项基础又十分重要的工作,不同特征变量往往具有不同的量纲,这会影响数据分析的结果,为了消除量纲的影响,需要进行归一化处理,本文采取min-max标准化,将财务指标的值映射到 [ 0 , 1 ] 区间内,变换函数如下
x ∗ = x − min max − min (7)
其中,x为某一财务指标的取值,max为该财务指标的最大值,min为该财务指标的最小值。
本文采用随机森林(Random Forest,简称RF) OOB误分率计算每个财务指标对企业是否会被特殊处理的分类结果的重要性。将390个样本用于随机森林模型训练,得到13个财务指标的特征重要性如图2所示。由图2得,贡献度排名前四的财务指标依次为:净利润增长率、净资产收益率、总资产报酬率、总资产周转率。因此企业在经营过程中应当重点关注这些财务指标的变化。另外,隶属于企业获利能力维度的2个指标总资产报酬率、净资产收益率,隶属于企业发展能力维度的3个指标总资产增长率、净利润增长率、
图2. 财务指标重要性
营业收入增长率的特征重要性都较高。连续2~3年出现亏损的企业将会面临被特殊处理的风险,企业能否获利直接反映了其是否有足够的资金维持自身发展。企业的发展能力可以反映其在未来的财务状况走势,发展能力强的企业即使暂时存在轻微财务困难,但其具有转亏为盈的潜力而免于陷入财务困境。所以,企业的获利能力和发展能力在判断企业是否会陷入财务困境中有较大的参考价值。
本文将重要性低于0.6的财务指标予以剔除,最终保留的6个财务指标为:总资产报酬率、净资产收益率、总资产周转率、总资产增长率、净利润增长率、营业收入增长率。
为了便于模型进行训练和预测,本文将未被特殊处理,即财务健康的企业归为类别0,将被特殊处理,即陷入财务困境的企业归为类别1。在衡量机器学习模型的性能时,应重点关注模型在测试集上的表现来对模型的泛化能力进行评估。
模型的分类正确率是重要的衡量模型性能的指标,能够反映出模型对企业是否会陷入财务困境的判别能力。
Accuracy = x 11 + x 00 x 11 + x 10 + x 01 + x 00 (8)
Accuracy为分类正确率, x i j 为实际类别为i,预测类别为j ( i , j = 0 , 1 )的样本个数,测试集分类正确率越高,表明模型的泛化能力越强。
为了起到预警作用,将实际情况为陷入财务困境的企业正确预测显得尤为重要。如果预测错误,可能导致已经出现财务危机信号的企业对未来抱有错误预期,未能意识到问题的严重性,从而无法及时采取措施而陷入财务困境。因此除了分类正确率,本文引入召回率作为第二个模型评价指标。
Recall = x 11 x 11 + x 10 (9)
Recall为召回率, x i j 为实际类别为i,预测类别为j ( i , j = 0 , 1 )的样本个数。
本文按照训练集样本数:测试集样本数 = 7:3的比例,将273个样本作为训练集,将117个样本作为测试集,进行模型的训练和预测。Adaboost的再代入误差(Resubstitution error)是其在训练集上的分类错误率,随着子分类树的数目的增加,再代入误差数值不断减小,并趋于相对平稳的状态,如图3所示。本文选择800作为RF-Adaboost模型的树的数目,其训练和预测结果如表2所示。RF-Adaboost模型在训练集和测试集上的表现都较好,测试集的分类正确率达到84.62%,测试集召回率达到80.4%。这说明模型不仅对企业是否会陷入财务困境取得了理想的预测效果,还具有对实际情况为陷入财务困境的企业进行正确识别的能力,具有较好的预警作用。
为了验证随机森林特征重要性进行特征降维是否有效,本文比较了直接使用初始13个财务指标的Adaboost模型和使用特征降维的RF-Adaboost模型的预测效果,如表3所示。由表3得,RF-Adaboost在测试集上的分类正确率和召回率均高于Adaboost模型,说明特征降维是有效的。
图3. 再代入误差变化
评价指标 | 数值 |
---|---|
训练集分类正确率 | 98.53% |
训练集召回率 | 97.80% |
测试集分类正确率 | 84.62% |
测试集召回率 | 80.40% |
表2. RF-Adaboost模型结果
模型 | 评价指标 | 评价指标数值 |
---|---|---|
Adaboost | 测试集分类正确率 | 78.64% |
测试集召回率 | 76.00% | |
RF-Adaboost | 测试集分类正确率 | 84.62% |
测试集召回率 | 80.40% |
表3. RF-Adaboost与Adaboost对比
为了进一步验证模型的有效性和优越性,本文在随机森林特征降维的基础上使用了多个其它机器学习模型进行预测效果对比。在企业财务困境预警领域,朴素贝叶斯和支持向量机是比较常见的机器学习模型。朴素贝叶斯方法中对变量的独立性和分布有较高的要求,因此本文采用基于核密度估计这一非参数概率估计方法的朴素贝叶斯模型进行训练和预测。核函数是支持向量机模型的最重要的参数之一,核函数的选择对模型的性能有很大影响,因此本文选择了RBF和Linear两种核函数分别建立支持向量机模型进行训练和仿真。近年来,一些学者开始将深度神经网络用于财务困境预警,相对于传统神经网络,以RNN、LSTM等为代表的深度神经网络可以更好地捕捉变量间的复杂非线性关系,LSTM神经网络在RNN神经网络的基础上引入了输入门、遗忘门和输出门,通过门控状态来控制过往数据向未来的传输状态,实现重要信息的长期记忆和不重要数据的及时遗忘。因此,本文选择LSTM深度神经网络进行训练与预测。各模型的测试集表现如表4所示。
由表4得出,RF-Adaboost的测试集分类正确率和召回率均高于其他模型,其泛化能力最好,这说明了相较于单一模型,集成学习模型在分类效果上的优越性。
模型 | 测试集分类正确率 | 测试集召回率 |
---|---|---|
RF-Adaboost | 84.62% | 80.40% |
LSTM神经网络 | 81.19% | 78.00% |
RBF-SVM | 74.36% | 66.68% |
Linear-SVM | 75.21% | 71.60% |
基于核密度估计的朴素贝叶斯 | 78.64% | 37.55% |
表4. 不同机器学习模型效果对比
本文通过构建基于特征降维和集成学习理论的RF-Adaboost模型,对我国上市企业进行了财务困境预警研究。本文创新性地根据随机森林特征重要性进行降维,直观反映了各财务指标在财务困境预警中的重要性,从而挖掘出需要企业经营者重点关注的财务指标。研究结果表明,净利润增长率、净资产收益率、总资产报酬率、总资产周转率这4个指标对企业是否会陷入财务困境具有较强的指向作用。同时,企业应当注重自身的获利能力和发展能力,不仅要立足当下,还要力争成为“潜力股”。
其次,为了验证RF-Adaboost模型的效果,本文还使用了Adaboost模型,LSTM神经网络、RBF-SVM、Linear-SVM、基于核密度估计的朴素贝叶斯模型进行了实验,研究结果表明RF-Adaboost在所有模型中表现最好,测试集的分类正确率和召回率都达到80%以上,说明了特征降维的有效性和集成算法的优越性。
本文的研究成果为一般企业提供了可操作性强的财务困境预警方法,但在实际情况中,除了财务情况这一主要因素,导致企业陷入财务困境的因素还有很多。例如,企业的管理机制不当可能会导致企业经营不善,企业领导者在重大决策上的失误可能造成企业的巨大损失从而陷入困境等。不同企业的情况不同,要想精准地对企业的财务状况进行预测,还需有针对性地对企业进行全面的调查和分析,因此在实际应用中,如何制定个性化的企业财务困境预警方案是未来需要研究的问题。
方逸雯,刘媛华. 基于RF-Adaboost的企业财务困境预警研究Research on Financial Distress Warning of Enterprises Based on RF-Adaboost[J]. 运筹与模糊学, 2023, 13(01): 306-314. https://doi.org/10.12677/ORF.2023.131033
https://doi.org/10.1111/j.1540-6261.1968.tb00843.x
https://doi.org/10.1016/0378-4266(77)90017-6
https://doi.org/10.1016/0378-4266(77)90022-X