1. 引言
在当今快速发展的信息技术时代,大数据、云计算、人工智能等技术的兴起,不仅极大地推动了社会经济的发展,也为人们的日常生活带来了前所未有的便利。然而,信息技术行业的高速发展背后,也伴随着高风险、高收益的特性,特别是财务风险的管理和控制,对于信息技术类上市公司尤为重要。财务危机的爆发不仅会直接影响到企业的生存和发展,还可能对整个行业乃至国家经济产生深远的影响。
信息技术行业的上市公司,由于其技术迭代速度快、市场竞争激烈、资金流动性要求高等特性,面临着更为复杂的财务风险。近年来,随着信息技术企业的不断增加,如何有效预测并防范财务危机,成为学术界和实务界共同关注的焦点。在此背景下,本文以2019~2024年沪深两市A股市场中的信息技术类上市公司为研究对象,运用LightGBM算法,结合财务数据、非财务数据,构建了一个全面的财务危机预测模型。
本研究的意义在于,通过对信息技术类上市公司财务危机的深入分析和预测模型的构建,不仅能够为相关企业提供科学的风险评估和管理工具,帮助企业提前识别和防范潜在的财务风险,还能够为投资者、债权人及相关利益方提供决策参考,促进资本市场的稳定和健康发展。同时,本研究的成果也将为信息技术行业的政策制定和行业监管提供理论支持和实践指导。
在研究方法上,本文采用了先进的LightGBM算法,该算法以其高效的训练速度、优异的预测性能和良好的泛化能力,在众多机器学习算法中脱颖而出。结合复杂网络理论,本文进一步丰富了财务危机预测的理论体系和方法论,为信息技术类上市公司的财务危机预测提供了新的视角和工具。
综上所述,本文的研究不仅具有重要的理论价值,也具有广泛的现实应用前景,对于推动信息技术行业的健康发展、提升企业风险管理水平具有重要意义。
2. 文献综述
2.1. 公司财务危机文献回顾
财务危机长期以来是学术界的研究重点,许多学者在文章中对财务危机进行了定义[1]。财务危机是企业全局性、根本性的危机,具有潜伏、形成、爆发和恢复的过程。在金融危机背景下的财务危机是,中小企业面临的资金紧张、需求减少、成本上升等问题,导致企业运营困难[2]。因财务状况异常而被特别处理的公司面临着财务危机,包括净利润为负、股东权益低于注册资本等情况[3]。财务危机是直接决定中小企业未来生存和发展的危机,包括内部控制不健全、核心竞争力不足等问题[4]。财务危机是企业无力支付到期债务或费用的一种经济现象,包括从资金管理技术性失败到破产以及处于两者之间的情况[5]。财务危机是因财务状况异常而被特别处理的公司,具体包括净利润为负、股东权益低于注册资本、经营设施损失、涉及赔偿责任的诉讼或仲裁、主要银行账号被冻结等情况。综上所述,本文定义财务危机是因财务状况异常如净利润为负、股东权益低于注册资本等导致企业无力支付到期债务或费用,从而影响中小企业未来生存和发展的危机。
探究公司财务危机的成因具有重要的意义。财务危机应该从公司外部原因和内部原因进行分析[1]。从外部环境来看,宏观环境复杂多变是公司形成财务危机的重要原因。而管理者风险意识淡薄、内部控制制度不健全、资本结构不合理、资产质量差、过度负债经营等是公司可能面临财务危机的内部原因。康春红分析了金融危机对宁波中小企业的影响,从而探讨财务危机的成因[2]。他们认为公司面临财务危机是由于公司融资难问题日益恶化营运能力减弱,缺乏先进技术,产品单一和市场占有率有待提高。不健全的内部控制制度。周仲禹基于企业倒闭现象分析财务危机的成因,他认为公司核心竞争力不足,投资的盲目扩张,人才流失和资金结构不合理致使公司面临财务危机的可能性加大[4]。公司财务危机是公司治理结构不完善及其内部控制不健全[5]。具体来说是主营业务萎缩、成本上升、重大投资失败、过度负债、大股东占用资金、不当担保等。从外部环境、经营管理、财务杠杆、资本结构和道德风险五个方面分析中小企业财务危机的成因,外部环境来说,经济环境变化、政府政策变化等会影响公司财务危机。从财务杠杆方面考虑:企业债务和财务杠杆系数变化会影响公司财务危机。企业资本结构管理:资本结构类型与现金流量合理性会影响公司财务危机。道德风险影响:欺诈、违约等行为会影响公司财务危机[6]。
2.2. 公司财务危机预测方法的文献回顾
陈传刚使用了多元判别分析、主成分分析和逻辑回归分析三种方法建立财务危机预测模型[7]。选择了50个预警变量,包括财务比率、现金流量指标和经济环境变量。研究结果表明,财务危机是可以预测的,且构建的模型在上市公司发生财务危机前一年的预测准确率超过90%。杨建仁采用逻辑斯蒂回归(Logistic Regression)和Fisher二类线性判定分析方法。构建了一个由20个财务指标组成的指标体系,综合反映了公司的偿债能力、资产管理能力、盈利能力、公司成长能力等方面[8]。通过计算样本公司危机前三年的各财务指标数值并进行剖面分析,筛选出对上市公司陷入财务危机影响最为显著的七个财务指标。戴小园提出了适合中国上市公司的Logistic-ANN混合组合预测模型,引入了财务周期概念,分析了财务危机的形成特性与形成机制。选取了A股市场上2006~2009年的180家机械制造业上市公司作为样本,进行了实证研究[9]。李树芳引入期权理论构建了上市公司财务危机预测模型。构建了基于违约点(DP)、违约距离(DD)、期望违约率(EDF)的模型。应用Black-Scholes模型来估计违约率,并提出了基于模型的应用方向,包括预估财务风险发生概率、找出财务管理问题、预判财务管理成果[10]。胡旷使用主成分分析结合Logistic模型进行财务危机预测。选取沪市上市公司中的ST公司和相对应的非ST公司的数据,通过多项指标进行分析。模型结果显示具有较高的预测成功率,使用的财务指标简单且易于获取[11]。辛秀提出基于小波神经网络的财务危机预测模型。采用自适应调整学习率及动量系数的方法训练小波神经网络,避免陷入局部极小值与多元统计方法、Logistic及Probit模型比较,显示出更高的预测精度和显著减少的第一类错误及第二类错误[12]。徐庆根运用GMDH算法和基于多种分类器集合的dce-GMDH算法进行财务危机分类预测。选取沪深A股上市公司的ST公司和非ST公司样本组,根据盈利能力、经营增长、资产质量和债务风险等维度的财务指标进行预测。结果显示两种算法在ST公司和非ST公司两类公司中取得较高的分类预测效果,dce-GMDH算法相较于GMDH算法可提高约2%的分类预测准确率[13]。
2.3. 文献评述
总体来看,财务危机的预测是一个多维度、多因素的问题,需要综合考虑企业的内外部环境。文献回顾显示,随着时间的推移,研究方法也在不断演进,从传统的统计方法到现代的机器学习技术,预测模型的复杂性和精确性都在提高。然而,这些模型的有效性可能受到数据质量、样本选择和市场变化等因素的影响。目前使用集成算法LightGBM预测公司财务危机的文献较少,故这是本文的创新之处[14]。
3. 理论概述
3.1. 非均衡理论
在公司财务危机的研究中扮演着重要角色。它提供了一个框架来分析和理解在公司面临财务困境时,市场和企业行为的动态变化。非均衡理论起源于20世纪50年代中期,发展于60年代,并在70年代成为现代经济学的一个重要分支。它对主流的瓦尔拉一般均衡理论进行了批判,强调了现实生活中存在的非均衡状态,其中价格和数量的调整并不总是能够使市场供求平衡。
凯恩斯在其《通论》中提出了与瓦尔拉一般均衡思想不同的宏观经济学体系,强调经济资源的非充分利用和市场的非均衡状态。凯恩斯的理论为非均衡学派的产生提供了基础。非均衡理论在社会主义经济的研究中产生了广泛影响,特别是在科尔奈的理论中,它被用来分析短缺均衡和经济中的其他非均衡现象。财务危机预警理论是企业理论的一个分支,它使用非均衡理论来解释财务危机的成因。非均衡理论在这里被用来研究外部冲击如何导致公司破产。非均衡博弈理论在市场竞争分析中被用来描述非均衡竞争情况下参与者的行为,这对于理解企业在财务危机中的竞争策略具有重要意义。一些研究通过回归金融原理,提出了基于非均衡理论视角的财务危机预警模型,这些模型旨在衡量企业的绝对财务危机风险,并提供直观的风险评估。有研究从非均衡理论的视角出发,对传统财务预警系统提出改进建议和财务危机应对策略,以更好地适应企业在财务困境中的动态变化。
财务困境问题被界定为一个动态发展演变过程,非均衡理论在这里被用来分析不同发展阶段企业的资金供求平衡问题。通过这些概述,我们可以看到非均衡理论为理解和预测公司财务危机提供了多维度的视角和分析工具[15]。
3.2. 企业诊断理论
财务危机下的企业诊断理论主要涉及对企业在面临财务困境时的经营状况、财务健康状况以及潜在风险的评估和分析。这种诊断可以帮助企业识别问题、预防风险、改善管理并制定应对策略[16]。企业诊断中常用的工具之一是财务危机预警模型,它通过分析财务指标来预测企业未来可能面临的财务风险。企业诊断通常会关注一系列的财务指标,如流动性比率、偿债能力、盈利能力等,以评估企业的财务健康状况。除了财务指标,企业诊断还包括对企业经营状况的深入了解,包括市场定位、竞争策略、管理效率等。企业诊断需要识别和评估企业面临的各种风险,并提出相应的风险管理措施。基于诊断结果,企业诊断会提出具体的改进建议,帮助企业优化管理决策和经营策略。在进行企业诊断时,需要明确财务危机的定义,这可能包括流动性困境、债务违约、破产清算等不同阶段。财务危机预警研究主张回归金融原理,关注企业未来预期资本现金流的预测,以实现对企业财务危机的绝对风险评估。现有财务危机预警模型可能存在局限性,如过度依赖历史数据、忽视企业特定情况等。因此,需要不断改进模型,提高其准确性和适用性。随着大数据和信息技术的发展,企业诊断可以更有效地利用企业财务信息和市场数据,提高诊断的时效性和准确性[17]。
3.3. LightGBM
LightGBM (LightGradientBoostingMachine)是一种高效的梯度提升框架,它使用基于树的学习算法,特别适用于大规模数据集的高效训练和预测[18]。LightGBM是由微软提供的一个开源机器学习库,用于解决大规模数据集上的机器学习问题。它是基于决策树算法的分布式梯度提升框架,旨在实现快速、低内存占用、高准确度的模型训练[19]。
LightGBM的核心数学原理基于梯度提升决策树(GBDT)。在梯度提升中,模型通过迭代地添加弱学习器(通常是决策树),每一步的弱学习器都试图纠正前一步的残差。LightGBM使用损失函数的负梯度作为当前模型的残差近似值,以此来拟合新的决策树。这个过程可以表示为:其中,
是预测值,𝐹(𝑥)是当前模型的预测,
是第𝑖个弱学习器的预测,
是其参数。
LightGBM算法具有以下特点:基于直方图的决策树算法:使用直方图算法代替传统的预排序方法,降低内存消耗,提高数据分割的效率。Leaf-wise的叶子生长策略:与传统的Level-wise生长策略相比,Leaf-wise策略每次选择能够最大程度降低损失函数的叶子节点进行生长,提高训练速度,但增加了过拟合的风险。高效的并行支持:LightGBM原生支持特征并行和数据并行,优化了并行计算过程,减少了通信开销。直接支持类别特征:优化了对类别特征的处理,无需进行额外的编码或转换。低内存使用:由于使用了直方图算法和优化的数据结构,LightGBM在内存使用上更加高效。这些特点使得LightGBM在处理大规模数据集时表现出色,尤其适用于需要快速训练和预测的场景[19]。
4. 实证研究
4.1. 数据处理
本文选取沪深A股市场的472家信息技术上市公司作为研究对象,并在国泰安数据库中,收集了这472家信息技术上市公司季度报中的2019年一季度至2024年一季度相关公开信息,剔除缺失值较多的样本,剩余样本的缺失值用SPSS线性插值功能补齐,总计7988个有效样本[20]。本文将信息类上市公司是否被标记ST来当作其是否面临财务危机的标准。其中非ST的样本有6363个,ST样本有1625个,非ST的样本与ST的样本数量之比将近4:1。本文从信息技术类上市公司的偿债能力,盈利能力,现金流水平以及发展能力,风险水平和创新能力六个方面去构建预测财务危机的指标,共15个变量,数据来自国泰安数据库。如表1是所搜集具体的相关变量。
Table 1. Variable explanation for financial crisis prediction model of 472 information technology listed companies
表1. 472家信息技术类上市公司财务危机预测模型变量解释
类型 |
变量名称 |
数据来源 |
偿债能力 |
流动比率,速动比率,现金比率,资产负债率,长期债务与营运资金比率 |
国泰安 |
盈利能力 |
总资产净利润率(ROA),流动资产净利润率,投资回报率,营业利润率 |
国泰安 |
现金流水平 |
公司现金流,现金适合比率 |
国泰安 |
发展能力 |
总资产增长率 |
国泰安 |
风险水平 |
经营杠杆,综合杠杆 |
国泰安 |
创新能力 |
研发投入占营业收入比例 |
国泰安 |
4.2. 模型搭建
本文用Python来建立LightGBM信息技术类上市公司财务预警分类模型,把数据按照7:3的比例,划分为训练集和测试集,用训练集的数据来训练模型,模型搭建完毕以后,用测试集的数据来进行回测。将测试集的预测值与实际值相比较,模型的准确率高达91.5%,其AUC值是0.9482,模型拟合效果良好。
另外,本文还用了python中的feature_importances查看了信息类企业上市公司是否面临财务危机(是否被标记ST)的影响因素的重要性,即特征重要性。如表2是模型特征重要性排前几的影响因素,特征重要性最高的是研发投入占营业收入的比例,对于信息技术类上市公司来说,保持良好的创新能力是公司平稳发展的首要条件。
Table 2. Preview of feature importance ranking for financial forecasting mode
表2. 财务预测模型特征重要性排名预览
特征名称 |
特征重要性 |
排名 |
研发收入占营业收入比例 |
466 |
1 |
总资产增长率 |
315 |
2 |
长期债务与营运资金比率 |
304 |
3 |
资产负债率 |
262 |
4 |
公司现金流 |
250 |
5 |
现金比率 |
204 |
6 |
4.3. 模型调参
为了使模型预测效果更好,本文调用了sklearn.model_selection的GridSearchCV来进行网络参数遍历调优,选取的参数如表3所示,运行结果显示,当叶子节点数设置为15,学习器个数设置为105,学习率设置为0.15时,模型拟合效果最好。重新设置参数后再用训练集数据训练模型,用测试集数据回测,此时,新模型AUC值0.9542,比旧模型AUC值0.9482高,且如图1所示,是模型调优前后的AUC曲线图,图AUC曲线图右下方的面积相较图2较大,说明模型调优成功。
Figure 1. ROC curve before hyperparameter tuning1
图1. 调参前ROC曲线
Figure 2. ROC curve after hyperparameter tuning
图2. 调参后ROC曲线
Table 3. Parameters selected for model tuning
表3. 模型调优所选取参数
参数名称 |
中文名 |
调参范围 |
num_leaves |
叶子节点数 |
10, 15, 31 |
n_estimators |
学习器个数 |
103, 104, 105 |
learning_rate |
学习率 |
0.14, 0.15, 0.16 |
4.4. 模型评估
表4展示了基于LightGBM的模型在预测信息技术上市公司财务危机时的评估指标。Accuracy (准确率)该模型的准确率为0.9155,这意味着模型在所有预测中正确预测的比例为91.55%。AUC值为0.9542,接近1。AUC是衡量二分类模型优劣的一种指标,AUC值越高,模型的区分能力越强。0.9542的AUC值表明该模型在区分正类(有财务危机)和负类(无财务危机)方面表现非常好。召回率为0.9150,即模型正确预测出的正类样本(有财务危机的公司)占所有实际正类样本的比例为91.50%。Precision (精确率)为0.9850,这意味着在模型预测为正类(有财务危机)的样本中,实际为正类的比例为98.50%。F1分数为0.8548,F1分数是精确率和召回率的调和平均数,用于综合评估模型的性能。总体来看,基于LightGBM的信息技术上市公司财务危机预测模型在各项评估指标上表现良好。特别是AUC和Precision值较高,表明模型在区分有财务危机和无财务危机的公司方面有较强的能力,且预测为有财务危机的公司中,误判的情况较少。
Table 4. Model evaluation
表4. 模型评估
Model |
Accuracy |
AUC |
Recall |
Precision |
F1 |
LightGBM |
0.9155 |
0.9542 |
0.9150 |
0.9850 |
0.8548 |
5. 稳健性检验
在收集好的样本集中随机抽取两个数量为1000的子样本集,再将每一个子样本集按照7:3的比例划分为训练集和测试集,用训练集数据训练调参后的模型,再用测试集回测,再导出两个模型的AUC值和正确率,如表5,两个随机样本的准确率与AUC值与全样本的准确率和AUC值相差不多,说明该模型具有良好稳健性。
Table 5. Robustness test results
表5. 稳健性检验结果
样本类型 |
准确率 |
AUC值 |
全样本 |
91.5% |
0.9543 |
随机样本1 |
92% |
0.8770 |
随机样本2 |
71.5% |
0.8666 |
6. 模型泛化能力分析
模型在实际应用中的主要任务通常是对新数据进行预测。然而,如果一个模型仅仅在训练数据上表现良好,却无法在未见过的新型数据上给出准确的预测,那么它的实用价值就会受到质疑。相反,一个具备强大泛化能力的模型能够从训练数据中捕捉到普遍适用的规律,并将这些规律有效地应用到新数据上,从而实现准确的预测。简而言之,泛化能力强大的模型能够有效避免过拟合和欠拟合的问题,确保对新数据保持一贯的预测性能。这种模型能够从训练集中提取出具有广泛适用性的特征,而不是仅仅记住训练数据的特定实例,从而在面对新情况时能够更加灵活和稳健。
(1) 用训练误差与验证误差分析模型泛化能力
本文使用sklearn库调用mean_squared_error模块计算模型的测试集误差和训练集误差,结果显示训练集误差为0.0028169,测试集误差为0.08448。训练集误差和测试集误差都较小,说明模型预测效果好,但训练集误差高于训练误差,说明模型可能存在过拟合,还需要进一步分析。
(2) 用学习曲线分析模型的泛化能力
学习曲线(Learning Curve)在机器学习领域中是至关重要的工具,它能够对模型的性能与复杂度进行评估和调整。通过记录模型在不同规模训练集下的训练误差和验证误差,学习曲线可以清晰地展现出模型的学习效果及其泛化能力。在构建学习曲线的过程中,本文采用了ShuffleSplit方法来进行交叉验证,这确保了评估过程的可靠性。同时,我们选择“neg_mean_squared_error”(负均方误差)作为性能评分的依据,这是衡量回归模型准确性的常用指标。通过这样的设置,我们能够更加精准地把握模型在各个训练阶段的表现,进而为模型的选择与优化提供有力的数据支撑。图3呈现了一张学习曲(Learning Curve)图,展示了训练误差(Training error)和测试误差(Testing error)随训练样本数量(Training examples)变化的情况。其中,红色曲线代表训练误差(Training error),在整个训练样本数量从1000到6000的区间内,该曲线的误差值稳定在0左右,近乎是一条水平直线。这意味着随着训练样本数量的增多,模型在训练集上的误差始终维持在极低水平,充分表明模型对训练数据有着极佳的拟合效果。绿色曲线代表测试误差(Testing error),当训练样本数量从1000开始逐渐增加时,其误差值从大约−0.09开始逐渐上升。而当训练样本数量达到约2000后,误差值在−0.02到−0.04之间波动,并逐渐趋于稳定。这表明随着训练样本数量的增加,模型在测试集上的误差逐渐减小,最终趋于稳定。从图中可以观察到,训练误差在整个过程中基本稳定在0左右,而测试误差在训练样本数量增加后稳定在−0.02到−0.04之间。由于训练误差和测试误差都处于较低水平,且二者之间的差距较小,由此可知该模型具备较好的泛化能力。
Figure 3. Learning curve of LightGBM financial crisis prediction model
图3. LightGBM财务危机预测模型学习曲线
7. 结论与展望
本文从国泰安数据库里收集了在沪深A股上市的472家公司的公开信息,构建了一个基于LightGBM的集成算法的财务预警模型,财务预警模型的建立对创新性要求高的信息类上市公司来说具有重要的意义。研究发现,研发收入占营业收入的特征重要性最大,信息技术类上市公司应该重视公司的创新能力,加大技术经费的投入,招揽技术人才加入,提高公司的核心竞争能力。
本文不足之处之一在于未将LightGBM与一些统计方法相结合,进一步提高模型预测精度。不足之处之二是影响因素中未考虑外部环境的因素,未来可加入一些测量外部宏观经济环境的指标来建立模型。
NOTES
1AUC曲线的横轴是假正例率(False Positive Rate, FPR),纵轴是真正例率(True Positive Rate, TPR)。
具体解释如下:
假正例率(FPR)是指被模型预测为正例的负例占所有负例的比例,其计算公式为:
FPR = FP/(FP + TN)
其中,FP表示假正例(False Positive),即实际为负例但被预测为正例的样本数;TN表示真正例(True Negative),即实际为负例且被正确预测为负例的样本数。
真正例率(TPR)是指被模型预测为正例的正例占所有正例的比例,其计算公式为:
TPR = TP/(TP + FN)
其中,TP表示真正例(True Positive),即实际为正例且被正确预测为正例的样本数;FN表示假负例(False Negative),即实际为正例但被预测为负例的样本数。