Estimation of Auto Insurance Claim Frequency by a Zero-Expansion Bayesian Nonparametric Model
In the field of non-life actuarial science, there are often a large number of zero claims in the data, and this zero aggregation phenomenon is called zero inflation. In insurance practice, there are many reasons for the phenomenon of zero inflation: for example, some insurance products are designed with a high claim threshold, resulting in many small claims that cannot be triggered, resulting in a large amount of zero-value data, or the insured does not have an insurance during the insurance period and therefore does not generate a claim. In order to fit too many zeros in the data, a zero-inflation model is an effective method. At present, most of the zero-dilation models used to solve the zero-dilation problem in the actuarial field use traditional parameter estimation methods for parameter estimation, which are limited to the finite-dimensional parameter space. In this study, we use a Bayesian nonparametric model, which is a Bayesian model defined on an infinite-dimensional parametric space, the size of which can adapt to the change of the model as the data within the model increases or decreases. Therefore, the Bayesian nonparametric method is introduced into the zero-expansion problem, which makes the model combine many advantages of Bayesian method and non-parametric method, and has greater flexibility. It has important theoretical significance and practical application value for solving problems in the field of actuarial science.
Bayesian Nonparametric
随着保险行业的快速发展和市场竞争的加剧,保险公司对于风险管理和定价的精确度的要求日益提高。然而,在实际操作中,保险公司经常面临数据中存在大量零值的情况,这给风险评估和保费定价带来了不小的挑战。零膨胀问题在保险精算中主要体现在以下几个方面:首先,在保险索赔数据中,由于免赔额、风险防范意识提高或保险条款的特定设计,许多保单在观察期内并未发生索赔,导致索赔次数数据中存在大量的零值。其次,在保险需求或保险购买行为的研究中,也可能出现零值过多的情况,例如某些客户在一段时间内未购买任何保险产品。这些零值的存在不仅影响了传统计数模型在保险精算中的适用性,还可能导致风险评估结果偏差,进而影响到保费的定价准确性和保险公司的盈利能力。因此,对于零膨胀问题的深入研究,对于提升保险精算的准确性和有效性具有重要意义。
索赔次数是衡量风险大小和保险费率的关键因素之一,它直接影响了保险公司的风险评估、定价策略以及经营决策。首先,通过对索赔次数进行准确的估计,保险公司可以更好地了解被保险人的风险状况,从而为其提供更个性化的保险服务。这包括设定合适的保费、制定针对性的保险条款以及提供及时的理赔服务等。其次,索赔次数的估计有助于保险公司进行风险管理和控制。通过对索赔数据的分析,保险公司可以识别出高风险群体或高风险行为,从而采取相应的措施来降低风险,比如调整保费、加强风险教育或是优化产品设计等。此外,索赔次数的估计还对保险公司的财务稳定性具有重要影响。通过对索赔次数的合理预测,保险公司可以更好地规划资金运用和风险管理,确保在面临大量索赔时能够保持充足的偿付能力。
在保险精算中,对索赔次数进行估计具有重要的意义。通过对零膨胀问题的深入研究,我们可以更准确地了解保险市场的真实情况,为保险公司的经营决策提供有力支持。其次,零膨胀问题对于保险精算的准确性和可靠性有着重要影响。如果我们不能正确处理零值数据,那么精算结果可能会出现偏差,进而影响保险公司的风险评估和定价策略。因此,研究零膨胀问题有助于提高保险精算的准确性和科学性。
1992年,Lambert
(1)
其中,参数 为结构零的比例,通常将其设为常数。当 时,退化为泊松分布,当 时, 越大,结构零的比例越大,零膨胀的现象越明显。
随机变量 的均值和方差分别为:
(2)
观测数据
来自n个独立的采样对象,
为
的协变量向量,包含分类协变量和连续协变量。
为逻辑变量。
为标量结果,其经验分布可以表现为多零、偏态或多模态。首先定义协变量向量
和
。我们指定了一个生成模型
(3)
也可以表示成如下的层次模型:
(4)
其中,令 , 的条件分布为两部分的混合:在0点处的质量 以及均值为 方差为 的高斯分布。这允许结果为0的正概率 。
假设参数是从狄利克雷分布G中提取的。狄利克雷分布是“分布的分布”,由两个参数
和
确定,记为
。参数
为分布参数,
为基分布
令 表示后验的预测结果, 的后验预测分布为:
(5)
通常假设在新的参数的条件下,新的估计结果独立于之前的观测值和之前的参数,因此,
(6)
假设可忽略性和一致性成立,
(7)
根据Polya Urn Blackwell and MacQueen,1973的结论
代入i = n + 1可得
代入式(5)中可得
对上式的积分除以y可得出后验预测均值
可以通过蒙特卡洛算法计算上述积分
布里尔分数是一种计算预测值和真实值差异的指标,其计算公式为:
(8)
其中,m表示总共检测的样本数目, 表示模型预测的概率, 表示真实值。Brier Score计算出来的值在0到1之间,数值越小代表模型的准确率越高。
Bais偏差和MSE都是用来衡量模型预测值和实际值之间的差异,Bias表示观测值和预测值的平均误差,MSE为观测值和预测值之间的均方误差。其计算公式分别为:
(9)
(10)
Vuong在1989年提出了非巢式模型和其检验统计量
(9)
其中, 为模型一的概率密度, 为模型二的概率密度。取 的均值为,
(10)
Vuong统计量的计算公式如下,
(11)
其中 为标准差,n为样本数量。 服从极限正态分布,当 时,认为模型一优于模型二;当 时,认为模型二优于模型一;当 ,无法判断两个模型哪个更优,则需要借助其他指标来进行评估,进而选择模型。
AIC,BIC和DIC准则是统计学常用的三种模型选择准则,用于给定一组模型的情况下,选择一个最优的模型。
AIC准则由日本统计学家赤池弘次提出,又称赤池信息准则
(12)
其中, 为模型的拟合优度, 为模型参数的个数。AIC准则在评估模型拟合优度的同时还考虑了模型的复杂度,因此可以在一定程度上避免过拟合的情况。AIC的值越小,则模型越优。
BIC准则由纳维亚统计学家施瓦茨提出,又称贝叶斯信息准则
(13)
其中, 为模型的拟合优度, 为模型参数的个数,n为样本量。BIC相比于AIC对模型复杂度更加严格地惩罚,因此当样本量较大时,BIC准则更倾向于选择更简单的模型。
DIC准则由Spiegelhalter等人在1998年提出,又称偏差信息准则
(12)
其中, 为后验均值下的拟合优度, 为模型有效参数的个数,DIC准则考虑了贝叶斯估计的不确定性,通常用于贝叶斯模型选择。
本文研究的数据是机动车辆第三者责任险的保单索赔数据,数据中包含的解释变量有:驾驶员年龄、车龄、发动机年龄、汽车行驶时区域、汽车品牌、奖惩系数、油耗类型、保单持有人所在地区、居住人口密度。共纳入了413169份保单数据
解释变量 |
变量取值 |
代码 |
驾驶员年龄 |
17~22 |
Driver Age = “(17, 22]” |
23~26 |
Driver Age = “(23, 26]” |
|
27~42 |
Driver Age = “(27, 42]” |
|
43~74 |
Driver Age = “(43, 74]” |
|
74~99 |
Driver Age = “(74, 99]” |
|
车龄 |
0~15 |
Car Age = “(0, 15]” |
16~100 |
Car Age = “(16, 100]” |
|
居住人口密度 |
0~40 |
Density = “(0, 40]” |
41~200 |
Density = “(41, 200]” |
|
201~500 |
Density = “(201, 500]” |
|
501~4500 |
Density = “(501, 4500]” |
|
汽车品牌 |
日本(尼桑除外)或韩国 |
Brand = “F” |
其他 |
Brand = “other” |
|
汽车油耗类型 |
柴油 |
Gas = “Diesel” |
普通油 |
Gas = “regular” |
本研究共提取了10000个索赔数据,下面是对索赔次数的描述性统计。
特征变量 |
变量取值 |
索赔次数 |
驾驶员年龄 |
17~22 |
316 |
23~26 |
355 |
|
27~42 |
1670 |
|
43~74 |
2450 |
|
74~99 |
162 |
续表
车龄 |
0~15 |
4643 |
16~100 |
310 |
|
居住人口密度 |
0~40 |
671 |
41~200 |
1496 |
|
201~500 |
850 |
|
501~4500 |
1646 |
|
4501~27000 |
290 |
通过
模型 |
Bais |
MSE |
AIC |
BIC |
零膨胀泊松模型 (ZIP) |
0.1527 |
0.4368 |
−309.24 |
−238.65 |
零膨胀狄利克雷过程混合模型 (BNP-ZIP模型) |
0.0962 |
0.2874 |
−732.46 |
−693.31 |
由
零膨胀问题在保险理赔中很常见,选择合适的模型进行预测具有很重要的现实意义。本文运用贝叶斯非参数模型进行预测,相比于传统的零膨胀模型,贝叶斯非参数模型具有更强的灵活性,不需要对参数的个数预先进行设定,其大小可以随着模型内数据的增大或减小而自适应模型的变化。本文运用零膨胀狄利克雷过程混合模型对零膨胀数据进行拟合和预测,狄利克雷过程混合模型是一种贝叶斯非参数模型。通过对比可知,零膨胀狄利克雷混合模型具有很好的拟合效果。