本文将NaiveBayes模型引入到贵州省制造业绩效评价的分类中,收集2014~2017年贵州省制造业529份经审计无保留意见财务报表数据,结合国家年度公布的《国家企业绩效评价标准值》,分别对盈利能力、营运能力、偿债能力三个方面财务能力下的绩效因子进行分段量化。通过财务报表科目构造一系列的变量,建立企业绩效评价的财务能力分类模型,探索制造业的绩效评价内容与财务报表其他科目之间的关系。在Accuracy和AUC评价准则下,通过模型训练和实证分析结果表明NaiveBayes模型的表现优于logistic回归模型,BP神经网络,二分类SVM以及决策树。 In this paper, NaiveBayes model is introduced into the classification of performance evaluation of manufacturing industry in Guizhou Province. 529 audited and unqualified financial statement data of manufacturing industry in Guizhou Province from 2014 to 2017 are collected. Combined with the standard value of enterprise performance evaluation published by the state, the performance factors of profitability, operation ability and solvency are quantified by sections. By constructing a series of variables, this paper establishes the financial ability classification model of enterprise performance evaluation, and explores the relationship between the performance evaluation content of manufacturing industry and other subjects of financial statements. Under the evaluation criteria of accuracy and AUC, the results of model training and empirical analysis show that the performance of NaiveBayes model is better than that of logistic regression model, BP neural network and binary SVM and decision tree.
孔梦秋1,吴有富2
1贵州民族大学数据科学与信息工程学院,贵州 贵阳
2贵州交通职业技术学院,贵州 贵阳
收稿日期:2019年11月28日;录用日期:2019年12月17日;发布日期:2019年12月24日
本文将NaiveBayes模型引入到贵州省制造业绩效评价的分类中,收集2014~2017年贵州省制造业529份经审计无保留意见财务报表数据,结合国家年度公布的《国家企业绩效评价标准值》,分别对盈利能力、营运能力、偿债能力三个方面财务能力下的绩效因子进行分段量化。通过财务报表科目构造一系列的变量,建立企业绩效评价的财务能力分类模型,探索制造业的绩效评价内容与财务报表其他科目之间的关系。在Accuracy和AUC评价准则下,通过模型训练和实证分析结果表明NaiveBayes模型的表现优于logistic回归模型,BP神经网络,二分类SVM以及决策树。
关键词 :盈利能力,营运能力,偿债能力,财务报表,NaiveBayes模型
Copyright © 2019 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
随着社会经济的飞跃发展,企业绩效评价的理论和方法探索已变成研究热点。王全在 [
大多数研究基于几个固定的财务绩效评价内容角度或宏观的方法进行企业的绩效评价 [
给定n维向量 X = { X 1 , X 2 , ⋯ , X n } ,拟分成m个类 C = { C 1 , C 2 , ⋯ , C m } 。在条件X下,NB分类法预测 X = { X 1 , X 2 , ⋯ , X n } 属于类 C i ( 1 ≤ i ≤ m ) ,当且仅当
P ( C i | X ) ≻ P ( C j | X ) , 1 ≤ j , i ≤ m , j ≠ i
由贝叶斯定理
P ( C i | X ) = P ( X | C i ) P ( C i ) P (X)
根据NB分类算法的类条件独立的假定
P ( X | C i ) = ∏ k = 1 n P ( X k | C i ) = P ( X 1 | C i ) P ( X 2 | C i ) ⋯ P ( X n | C i ) (1)
1) 式中 P ( X i | C i ) 可由训练样本估计,为了预测X的属类标号,对于每个类 C i ,可以计算出 P ( X | C i ) P ( C i ) 。若先验概率 P ( C i ) 未知,可假设 P ( C i ) 相同,此时最大化 P ( X | C i ) 即可。否则最大化 P ( X | C i ) P ( C i ) , P ( C i ) = | C i , D | | D | ,其中D是训练样本总数, | C i , D | 是类 C i 在D中的训练元组数。
NB分类法预测输入X的类 C i ,当且仅当
P ( X | C i ) P ( C i ) > P ( X | C j ) P ( C j ) , 1 ≤ i , j ≤ m , j ≠ i
由此可得
P ( C i | X ) = max { ∏ k = 1 n P ( X k | C i ) P ( C i ) }
即使 P ( X | C i ) P ( C i ) 或 P ( C i | X ) 最大的类 C i 为被预测的类标号。
为了能够客观地评价分类模型的性能,常采用的指标有精准率、召回率、准确率、F值和AUC值等。目前在制造业绩效评价领域里,模型评价体系并不完善,这里我们选用准确率和AUC值来对本文的二分类模型的建模效果进行评估比较。
本文重复进行N次试验,每次的实验结果用 A c c T 来表示,采用N次实验结果中准确率最高的一次作为衡量模型的准确度:
a c c = max { a c c 1 , a c c 2 , ⋯ , a c c N }
准确率越高,模型的分类效果越好。本文 N = 100 。
本文考察制造业绩效评价内容 A 1 , ⋯ , A n 的优或差,利用NB模型进行分类识别。若 A 1 , ⋯ , A n 为“优”的概率大于预先设定的阈值 α , α ∈ ( 0 , 1 ) ,则将其判别为“1”,否则为“0”。 α 的取值由实际情况而定。由于我们需要对绩效评价内容 A 1 , ⋯ , A n 的优或差进行分类,相应地就产生了两个指标:真正例率(TPR)和假正例率(FPR),前者表示将 A 1 , ⋯ , A n 为“优”(或“1”)正确分类的概率;后者表示将 A 1 , ⋯ , A n 的“差”(或“0”)错误分类为“优”(或“1”)的概率。我们用下面的混淆矩阵来解释上述两个指标的计算(表1):
预测的类 | ||||
---|---|---|---|---|
优 | 差 | 合计 | ||
实际的类 | 优 | TP | FN | TP + FN |
差 | FP | TN | FP + TN |
表1. 混淆矩阵
上述两个指标的计算公式可表示为:真正例率(TPR) = TP/(TP + FN);假正例率(FPR) = FP/(FP + TN)。理想状态下,TPR应该接近于1,FPR应该接近于0,所以模型中我们希望TPR尽量大,FPR尽量小,这取决于我们预先设定的阈值 α 。实际上TPR与FPR具有同向变化关系,我们可以画出ROC曲线(图1)。
图1. ROC曲线图
模型效果越好,则ROC曲线越远离对角线,极端的情形是ROC曲线经过(0,1)点,即将“1”全部预测为“1”而将“0”全部预测为“0”。ROC曲线与FPR轴围成的面积称为AUC值,用来定量地评价模型的效果,AUC值越大,说明模型的分类效果越好。
基于相关研究 [
绩效因子 | 指标含义 | |
---|---|---|
盈利能力 | 净资产收益率 | 利润净额/所有者权益 |
总资产报酬率 | 息税前利润/平均资产总额 | |
主营业务利润率 | 主营业务利润/主营业务收入 | |
盈余现金保障率 | 经营活动产生的现金流量净额/利润净额 | |
成本费用利润率 | 营业利润/成本费用总额 |
营运能力 | 应收账款周转率 | 主营业务收入/(上年末应收账款净额 + 本年末应收账款净额)/2 |
---|---|---|
存货周转率 | 主营业务成本/(上年末存货 + 本年末存货)/2 | |
总资产周转率 | 主营业务收入/(上年末资产总计 + 本年末资产总计)/2 | |
流动资产周转率 | 主营业务收入/(上年末流动资产 + 本年末流动资产)/2 | |
偿债能力 | 资产负债率 | 负债总计/资产总计 |
速动比率 | (流动资产 − 存货 − 预付账款)/流动负债 | |
现金流量比率 | 经营活动产生的现金流量净额/流动负债 | |
利息保障倍数 | (利润总额 + 财务费用)/财务费用 |
表2. 因变量的情况说明
给绩效因子赋值为Y,设定一个固定值a (参照2016年《国家企业标准值》 [
Y = { 0 X ≤ a 1 X > a
其中X是绩效因子的具体值。
绩效因子 | 良好值a | 赋值为“0”区间 | 赋值为“1”区间 |
---|---|---|---|
净资产收益率 | 0.07 | X ≤ 0.07 | X > 0.07 |
总资产报酬率 | 0.05 | X ≤ 0.05 | X > 0.05 |
营业利润率 | 0.142 | X ≤ 0.142 | X > 0.142 |
盈余现金保障率 | 5.1 | X ≤ 5.1 | X > 5.1 |
成本费用利润率 | 0.077 | X ≤ 0.077 | X > 0.077 |
表3. 盈利能力指标情况
将盈利能力指标(表3)的绩效因子得分加总,记加总得分为x,x取值为0、1、2、3、4、5,若
y = { 0 if 0 ≤ x < 3 0 if 3 ≤ x ≤ 5
其中y代表盈利能力指标值,y为“1”说明企业的收益和盈利情况较好。鉴于营运能力和偿债能力的处理方法与盈利能力相似,故在此不再一一赘述。
按样本数据的70%划分为训练集,30%为测试集,用决策树模型分类,结果如下:
绩效评价内容 | ACC | AUC |
---|---|---|
盈利能力指标 | 98.74 | 0.9851 |
营运能力指标 | 98.11 | 0.9758 |
偿债能力指标 | 100 | 1 |
表4. 分类准确率及效果
表4说明我们通过设定固定值,对财务指标的绩效因子进行加总得分的处理效果是可以的。从而得到因变量为0~1变量,y为“0”表示该项能力“差”,“1”表示其能力为“优”,这就挑选出财务绩效较好的样本(优质客户)参与下一步的企业绩效评价分类建模。
为进一步探索制造业的绩效评价内容与财务报表其他科目之间的关系,通过财务报表科目构造一系列的变量,建立企业绩效评价的财务能力分类模型。由于数据的冗余变量和无关变量会对模型的训练时间、预测精度和简洁性会产生不利影响 [
解释 变量 | 含义 | 解释 变量 | 含义 |
---|---|---|---|
x1 | (应收账款净额 + 预付账款)/主营业务收入 | x10 | (应收账款净额 + 预付账款 + 存货 + 其他流动资产)/资产总计 |
x2 | 管理费用/主营业务收入 | x11 | 应付账款/负债总计 |
x3 | 主营业务成本/经营活动现金流出小计 | x12 | 存货/资产总计 |
x4 | 货币资金/资产总计 | x13 | (所有者权益 + 长期负债 + 流动负债 − 短期借款 − 应付票据 − 资产总计 + 流动资产)/流动资产 |
x5 | 应收账款净额/资产总计 | x14 | (应付账款 + 预收账款 + 应付工资 + 应付 福利费)/(应收账款净额 + 预付账款 + 存货) |
x6 | (应收账款净额 + 预付账款 + 存货)/资产总计 | x15 | 固定资产净值 + 在建工程 |
x7 | (应收账款净额 + 预付账款)/资产总计 | x16 | (资产总计 − 流动资产)/(所有者权益 + 长期负债) |
x8 | (流动资产 − 流动负债)/流动资产 | x17 | (负债总计 − 货币资金)/(所有者权益 − 待摊费用 − 无形及 递延资产 − 递延税款借项 − 待处理固定资产净损失) |
x9 | (应付账款 + 应付工资 + 应付福利费)/负债总计 | x18 | 固定资产净值/资产总计 |
表5. 自变量解释及含义
本文所用的数据来源于某商业银行2014~2017年贵州省制造业529份财务报表数据,这些财务报表均经过审计且是标准无保留意见的。原始数据共有38,088个记录,根据实际需要通过对财务报表中的某些科目进行加工构造了72个变量。
将样本数据中为0或空值占比大于或等于9%的无关变量剔除,剩余54个变量,空值均采用均值补缺。然后选用基于距离相关性的DS-SIS的独立筛选方法进行降维 [
为了消除数据方向和量纲的差异性影响,采用Z-score
x = x i − x ¯ s
对数据进行标准化处理。处理后的数据按10折交叉划分为训练集和测试集。
分别以绩效评价内容的三个能力指标为因变量,18个变量作为自变量,通过NB分类算法建立模型。
盈利能力指标建模得到的结果如表6及图2所示:
混淆矩阵 | 预测的类 | ||
---|---|---|---|
1 | 0 | ||
实际的类 | 1 | 29 | 2 |
0 | 5 | 17 |
表6. NaiveBayes模型对盈利能力指标测试集数据的分类结果
图2. NB分类模型在盈利能力指标测试集上的ROC曲线
在表6中,表明有2份盈利能力为“优”的财务报表,被误判为“差”,有5份盈利能力为“差”的财务报表,被误判为“优”,剩余46份财务报表的分类正确。模型的总体分类准确率为86.79%,AUC值为0.8374。
营运能力指标建模得到的结果如表7及图3所示:
混淆矩阵 | 预测的类 | ||
---|---|---|---|
1 | 0 | ||
实际的类 | 1 | 26 | 1 |
0 | 5 | 20 |
表7. NB模型对营运能力指标测试集数据的分类结果
表7中,52份财务报表参与测试,仅有1份盈利能力为“优”的财务报表,被误判为“差”,有5份盈利能力为“差”的财务报表,被误判为“优”,剩余46份财务报表的分类正确。模型的总体分类准确率为88.46%,AUC值为0.8679。
偿债能力指标建模得到的分类结果如表8及图4所示:
图3. NB分类模型在营运能力指标测试集上ROC曲线
混淆矩阵 | 预测的类 | ||
---|---|---|---|
1 | 0 | ||
实际的类 | 1 | 20 | 0 |
0 | 5 | 28 |
表8. NB模型对偿债能力指标测试集数据的分类结果
图4. NB分类模型在偿债能力指标测试集上的ROC曲线
表8中,只有5份偿债能力为“差”的财务报表,被误判为“差”,剩余的48份财务报表被正确分类。模型的总体分类准确率为90.57%,AUC值为0.8829。
由此说明NB模型对制造业企业的三个财务能力分类效果较好,即绩效因子以外的报表科目通过构造加工后与关键的企业绩效评价内容之间存在较好的相关性,这些构造加工的变量可以作为衡量企业绩效的重要因素,从企业资产结构配置的合理性,能够更全面地对企业的财务绩效进行评价。
企业绩效评价模型中常用的模型有BP神经网络,logistic回归模型,本文首次将NaiveBayes分类模型应用于制造业的绩效评价分类,并与BP神经网络、logistic回归、支持向量机以及决策树模型进行比较,各模型均用MATLAB R2014a软件完成,运行的结果如下表9所示:
评价内容 | 模型类型 | ACC | AUC |
---|---|---|---|
盈利能力指标 | 朴素贝叶斯 | 86.79 | 0.8374 |
支持向量机 | 82.7 | 0.7683 | |
BP神经网络 | 82.75 | 0.5162 | |
决策树 | 77.21 | 0.7628 | |
logistic回归 | 72.64 | 0.5406 | |
营运能力指标 | 朴素贝叶斯 | 88.46 | 0.8679 |
支持向量机 | 80.76 | 0.7918 | |
BP神经网络 | 79.31 | 0.596 | |
决策树 | 82.28 | 0.8105 | |
logistic回归 | 0.4906 | 0.5534 | |
偿债能力指标 | 朴素贝叶斯 | 90.57 | 0.8829 |
支持向量机 | 90.38 | 0.8794 | |
BP神经网络 | 86.2 | 0.5502 | |
决策树 | 82.28 | 0.843 | |
logistic回归 | 68.87 | 0.6757 |
表9. 各绩效评价分类模型的实证结果
由上表可以看出:对于制造业企业绩效评价分类模型,logistic回归模型虽然本身较为稳定,但是建模结果是最不理想的,尤其盈利能力指标的分类,准确率比其他都低,仅为0.4906,但是模型AUC值大于0.5,说明该模型还是有意义的。决策树模型是有监督分类,属于机器学习的范畴,对样本数据不需要作何假设,但是当类别多时,可能会增加错误率。支持向量机和BP神经网络是人工智能和机器学习领域的方法,能够模拟数据间复杂的线性关系,但模型缺乏可解释性,从建模结果来看,支持向量机模型在acc和AUC指标上的表现仅次于朴素贝叶斯模型。朴素贝叶斯分类算法比较简单,拥有稳定的分类效率,由本文的建模结果分析可以说明朴素贝叶斯模型对于三个财务绩效指标的分类在acc和AUC值上的表现是最好的。
本文首次将NaiveBayes模型应用于制造业企业的绩效评价分类,从建模结果来看,相比于其他几个评价模型,NaiveBayes分类模型的表现是最好的,该模型在实际应用中算法简单灵活,有较强的可操作性,能够更好地探索制造业企业的绩效评价内容与财务报表其他科目之间的关系。一方面促使企业优化自身的资产结构配置,避免盲目扩张;另一方面帮助银行等金融机构在进行客户选择、信贷投放时作为参考,以及从报表结构的合理性去识别粉饰的报表有借鉴作用,使得企业的绩效评价方法更为全面,以期为制造业企业的绩效评价机制带来新的思路与应用价值。
贵州省教育厅高等学校人文社会科学研究项目资助。项目名称:大数据背景下贵州省制造业绩效评价研究(编号:2019dxs027)。
孔梦秋,吴有富. 基于NaiveBayes模型的贵州制造业绩效评价的分类研究Research on the Classification of Manufacturing Performance Evaluation in Guizhou Based on NaiveBayes Model[J]. 应用数学进展, 2019, 08(12): 2062-2071. https://doi.org/10.12677/AAM.2019.812237