Analysis of Car Insurance Fraud Based on Stacking Fusion Model
With the rise of new energy vehicles in China, the issue of car insurance fraud has become increasingly prominent. In order to effectively identify fraudulent insurance activities, this study employs the Stacking ensemble model, optimized using simulated annealing algorithm tuning based on machine learning theories, to predict insurance fraud. Initially, utilizing the Random Forest and XGBoost algorithms, two distinct feature sets are selected to construct training datasets. Subsequently, by employing differentiated data, the predictive capability of the Stacking model is enhanced. Through cross-validation, the optimal model is obtained and its accuracy is 87.43%. Empirical analysis shows that compared to the Stacking model without differentiated data, the ensemble model developed in this study exhibits superior capability in identifying fraudulent behaviors in car insurance.
Car Insurance Fraud
在5G时代,以大数据为代表的新技术正在融入各行各业,中国保险行业协会发布《保险科技“十四五”发展规划》,指出要推进保险数字化转型,以科技增质提效。在十四届全国人大二次会议上,李强总理在2024年政府工作报告中提出深化大数据、人工智能等研发应用,开展“人工智能+”行动。大数据技术为产业智能化提供数据支持,应该加强大数据与人工智能算法相结合。
就保险行业而言,随着国内汽车市场的扩大,近年来我国机动车承保数量持续增长,车险已然成为财产保险市场的重要部分。喻炜等(2017)
在已有研究的基础上,利用机器学习等方法对汽车保险诈骗作进一步分析。本文的主要贡献有:首先,利用随机森林与XGBoost两种模型进行特征贡献率计算,分别筛选出贡献率显著的特征,并在后续建模中分别利用这两个筛选后的样本训练模型产生差异化的数据,使得Stacking模型训练的成果更为有效。其次,使用模拟退火的算法进行参数优化,该方法不仅速度快,而且能获得更好的机器学习参数。最后,在Stacking建模中,通过求各学习器的最优参数,比较最优状态下各学习器的训练效果来选择基学习器,并在此基础上通过输入元学习器的数据来对元学习器进行优劣比较,最终建立Stacking融合模型。
近几年来,中国保险业的发展呈现稳步增长的趋势,随着人民生活水平的逐渐提高,人们对保险的需求急剧上升的同时,保险诈骗次数也急速上升,这意味着对于保险诈骗的识别有重大意义。目前国内外也有许多学者对保险诈骗识别进行了许多方面的研究。
在传统机器学习层面,陈思迎(2019)
在融合模型算法层面,Gong等(2020)
在神经网络与深度学习层面,Xia等(2022)
通过以上文献综述,不难发现对于保险诈骗类识别的方法,仍然是以使用机器学习的方法为主。目前的研究主要是通过逻辑回归等分类算法、神经网络、随机森林等机器学习方法为主,较少有运用Stacking等将各种分类器集成来进行分析识别,以及将多种机器学习的方法效果进行比较分析,这是本文研究的动因,进一步利用融合模型分析汽车保险诈骗问题。
XGBoost是一种高效的机器学习算法,Chen等(2016)
XGBoost的目标函数在传统的梯度提升算法的目标函数的基础上,加上正则化项,可表示为:
(1)
公式中,n代表训练样本个数。 代表损失函数,是模型预测值与真实值之间的差异。K代表迭代次数。 代表第k轮的正则化项。
XGBoost的优化过程就是通过最小化目标函数来找到最优的模型参数。在每一轮迭代中,通过构建一个新的树模型来纠正前一轮迭代的残差,残差定义为当前模型的预测值与真实值之间的差异。
随机森林(RF)是一种集成学习算法,由Breiman (2001)
在建立每棵树时,通过自助采样得到一个自助样本,在决策树的每个分裂节点,不考虑所有特征,而是随机选择一个特征子集,对于每棵树,基于自助样本和选定的特征子集,递归地选择最有信息增益的特征进行分裂,直到满足停止条件。在构建完所有树后,通过查看该特征在构建随机森林中的所有树时,对减少不纯度的贡献得到每个特征的贡献值。
Stacking模型是一种融合学习方法,由Wolpert (1992)
1) 选择基学习器:选择一组不同类型或不同参数设置的基本模型;
2) 训练基本模型:使用原数据对每个基学习器进行训练,并利用模拟退火算法得出各学习器的最优参数;
3) 生成第一层预测:利用训练后的各学习器预测待分析数据,将这几个模型的输出按照列的方式进行堆叠,并向第二层决策器输出;
4) 第二层预测结果输出:利用新样本进行决策器训练,并输出最终预测结果。
流程图如
支持向量机(SVM)是一种广泛应用于模式识别、分类以及回归的监督学习模型。它在众多领域中显示出卓越的性能,随着数据量的爆炸性增长,机器学习算法在处理复杂数据集方面变得越来越重要。SVM作为一种监督学习算法,因其在高维空间中寻找最优决策边界的能力而受到广泛关注。SVM的目标是找到一个超平面,可以将数据集中的样本点根据类别划分开来。在这个过程中,距离决策边界最近的样本点被称为支持向量。SVM通过最大化样本间的间隔来优化决策边界,从而提高模型的泛化能力。
由于数据的获取存在时间不同、区域不同的特点,导致数据中存在部分显著的异常值,为确保后续预测结果的有效性,本文利用 法则对连续型特征数据进行异常值的识别。
(2)
(3)
对于超过此界限的数据,将其定义为异常值,并对其做删除处理。
对于数据中原本就存在的缺失值以及上述异常值处理后所得的空缺值,本文利用三次样条插值进行处理。三次样条插值法的参数计算方式如下:
(4)
(5)
(6)
利用上述系数计算样条函数,得到各特征的估计值计算函数如下:
(7)
通过样条函数对缺失值点进行替换插值处理,可获得较接近真实情况的数据。
由于数据中存在单位不同的问题,容易影响后续建模中特征贡献度的计算,本文对数据进行了标准化处理。
为了论证本文模型的效用,本文将运用一份关于汽车保险诈骗的数据,数据中的是否存在欺诈行为,如果存在欺骗行为,则取值为1,否则取0。
本文使用模型五折交叉验证的准确率来进行模型效果的评估,准确率:模型对数据预测,其存在欺骗的记录为a个,样本中真实存在欺骗的记录有b个,定义准确率为 。
本文通过随机森林和XGBoost方法对特征的重要程度进行排序,筛选出重要程度前20的特征来进行模型的训练,通过减少维度来减少运行的时间。而两种方法所挑选的特征重要程度有所不同,这样就产生了两份不同的数据,这为后面建立Stacking融合模型奠定了基础。
在建立融合模型中,需要确立诸多模型的参数,例如随机森林包含树的棵数、最大特征量的选择量等。为此,我们使用模拟退火算法在数值空间中搜索最优的参数,使得最终所得到的模型具有强大的准确率和模型泛化能力。具体步骤如
此处将所有单个的传统机器学习模型以及一些集成算法模型与本文的Stacking模型进行对比,众所周知,传统模型有K近邻分类模型、逻辑回归模型、GBDT模型、支持向量机模型,集成模型包括了Bagging模型、随机森林模型等。
本文最终建立的Stacking模型的第一层学习器包括了逻辑回归、K近邻分类、随机森林、GBDT模型,第二层元学习器为随机森林,其结构图如
建模过程中对于元分类器的选择,我们使用了一系列的模型来进行实验,比较不同模型下的准确率,最终得到的结果如
模型 | 单一模型预测准确率(%) | Stacking模型预测准确率(%) |
K近邻分类 | 74.0 | 80.4 |
高斯贝叶斯 | 58.4 | 78.3 |
随机森林 | 75.8 | 84.7 |
决策树 | 74.1 | 75.0 |
GBDT | 74.7 | 76.8 |
Bagging | 77.7 | 79.4 |
逻辑回归 | 77.0 | 78.3 |
SVM | 74.4 | 75.3 |
由
通过对比未进行模型融合的预测准确率,可以发现在Stacking第二层元学习器的选择中,使用随机森林进行学习的准确率是最高的,其次是K近邻分类模型所得的准确率。通过对比我们可以看出,如果我们在这份数据集之上使用不同的元学习器进行模型融合的话,我们最终的预测准确率差异还是比较大的。
本文为了探究差异化数据对模型欺诈识别的作用,计算得出的
模型 | 无差异化数据(%) | 差异化数据(%) |
K近邻分类 | 78.0 | 80.4 |
高斯贝叶斯 | 77.1 | 78.3 |
随机森林 | 76.5 | 84.7 |
决策树 | 70.4 | 75.0 |
GBDT | 76.1 | 76.8 |
Bagging | 75.7 | 79.4 |
逻辑回归 | 75.1 | 78.3 |
SVM | 73.2 | 75.3 |
由
1) 提高模型的泛化能力:数据差异化可以使得每个基模型接触到的数据类型和分布都有所不同,这样可以避免模型对于特定类型的数据过于依赖,从而提高模型的泛化能力。
2) 降低模型过拟合的风险:如果所有的模型都使用相同的数据进行训练,那么它们可能会学习到相同的错误,导致过拟合。而数据差异化可以使得每个模型都从不同的角度去学习数据,从而降低过拟合的风险。
3) 提高模型的多样性:数据差异化可以使得每个模型都有其独特的特点,这样可以增加模型的多样性,从而提高Stacking模型的整体性能。
4) 提高模型的稳定性:如果所有的模型都使用相同的数据进行训练,那么当数据集发生变化时,所有模型的性能都可能受到影响。而数据差异化可以使得每个模型都能够适应不同的数据变化,从而提高模型的稳定性。总的来说,数据差异化可以提高Stacking模型的准确率,主要是因为它可以提高模型的泛化能力,降低过拟合的风险,提高模型的多样性和稳定性。所以本文建立的Stacking融合模型对准确率的提升有较大的作用。
最后,建立了最优模型ROC曲线,如
此外,通过计算得到AUC为0.95。当我们和其余选用不同元学习器的Stacking模型相比较时,还是以随机森林作为元学习器的AUC值最高,说明了该模型的优越性。
本文根据五折交叉验证中的各次划分结果,分别利用模型对数据进行预测,对各次预测模型的评估参数取平均值,用于描述模型的泛化能力,计算结果如
指标 | 准确率(%) | 精确率(%) | 召回率(%) | F1分数 |
得分 | 84.71 | 82.14 | 76.96 | 81.12 |
该模型的预测准确率和F1分数均高于80%,故认为该模型具有较强的泛化能力。同时,这些数值普遍高于用其它元学习器的Stacking模型的数值,进一步说明了模型的优越性。
在目前的保险行业中,不难发现骗保的事件屡见不鲜,这在一定程度上会对汽车产业的发展产生一定制约,特别是目前新能源汽车的兴起时期,骗保可能会更为频繁,从而对保险行业造成巨大损失。故目前,保险行业建立完备的诈骗识别系统是十分重要的。而基于征信体系以及用户的大数据来建立识别模型是十分有效的,故本文构建了Stacking融合模型,结合模拟退火的参数优化算法,对保险诈骗进行了识别,而这对于保险行业具有一定的启示意义,为保险行业强化自身的风控系统提供帮助。依照本文所得,是否产生重大损坏、车险索赔金额、车险日期、每年的保费、发生保险事故的城市、发生保险事故的地区、资本收益、资本亏损是识别保险欺诈行为的重要特征。
根据上述结论,本文建议保险行业在理赔处理过程中应对如下特征加强重视:首先,是否产生重大损坏、车险索赔金额、车险日期、每年的保费、发生保险事故的城市、发生保险事故的地区、资本收益、资本亏损,这对识别保险欺诈行为具有重要的贡献度。其次,保险行业在完善自身的风控系统过程中,应重视差异化数据的训练过程。这意味着保险行业要重视征信体系的建立,重视保险数据的收集工作,为欺诈识别建立完备的数据库支持。
*通讯作者。