Forecasting Analysis of Customer Subscribed Time Deposits Based on Pinball Loss Fuzzy Support Vector Machines
This paper is based on data from the UCI machine learning repository on the marketing activities of a banking institution, with whether a customer subscribes to a time deposit as the response variable, and nine discrete and continuous indicators describing the customer’s information as well as his socio-economic status as the explanatory variables. In this paper, an improved Pinball Loss Fuzzy Support Vector Machine (Pin-FSVM) prediction model is proposed with the aim of improving the accuracy and efficiency of banks in the financial services industry in identifying potential customers to subscribe to time deposits. The Pin-FSVM model optimises the performance of the traditional fuzzy support vector machine by incorporating the concepts of the Pinball Loss Function and the Fuzzy Affiliation Degree. The model maintains prediction accuracy in noisy data environments and effectively handles the uncertainty in the data. In the application to the practice of predicting bank customers’ subscription deposits, Pin-FSVM successfully identifies customers who are more likely to choose time deposits, which significantly improves the prediction effect and provides a powerful tool for banks to accurately identify and serve their customer groups.
Pinball Loss Function
定期存款亦称“定期存单”,银行与存款人双方在存款时事先约定期限、利率,到期后支取本息的存款。有的定期存单到期时,储户所需款项可上市出售;有的定期存单无法转让,存款人若选择到期前从银行取款,则需从银行缴纳一定费用。伴随着中国经济发展进入新常态、金融监管不断加强、行业经营竞争不断加剧,再加上互联网金融的影响,对中国商业银行整体经营环境造成很大的影响
Vapnik和Cortes于20世纪末提出的一种全新的分类方法
受FSVM,Pin-SVM的启发,本文提出了一种新的基于弹球损失的模糊支持向量机(Pin-FSVM)模型应用于对客户是否认购定期存款的预测模型,提高预测精度。主要思想是将FSVM与Pin-SVM结合,将FSVM中的铰链损失函数替换为弹球损失函数,减少噪声对决策超平面的影响,使Pin-FSVM在处理噪声数据时具有稳健性。Pin-FSVM使用松弛变量的L1范数,所以提出的Pin-FSVM是凸二次规划问题,可以使用拉格朗日乘子法求解对偶问题,然后通过CVXR (求解约束凸优化问题的优化包)求解模型。改进的基于弹球损失的模糊支持向量机对异常值具有鲁棒性,为银行更加精确地识别客户是否认购定期存款提供了方案。
在本章中,对SVM、Pin-SVM、FSVM的理论进行简要的介绍,在一个二分类问题中,假设输入空间中训练样本集为 ,其中 。
弹球损失在回归分析中得到了深入的研究和广泛的应用,但尚未用于分类,Huang等人为了克服SVM对决策超平面附近的特征噪声敏感提出了基于弹球损失函数的支持向量机。首先简单介绍弹球损失(Pinball loss)函数:
(1)
其中,
为自定义参数,
基于弹球损失函数的支持向量机(Pin-SVM)模型定义如下:
(2)
通过拉格朗日乘子法可求得(2)的对偶问题为:
(3)
其中 为拉格朗日乘子,线性情况下Pin-SVM决策函数为:
(4)
随着参数 的值增加,正确分类的样本点的权重变大,因此边距宽度变大。所以类边界附近的点在决定最优决策超平面中变得不那么重要。对于Pin-SVM,在正确分类的样本点上给予惩罚带来了对决策边界周围的噪声的不敏感性,特征噪声的影响被削弱,使得Pin-SVM对特征噪声不敏感。
在传统的SVM中,输入数据的每个样本点的重要程度相同,但是对于许多现实生活的分类问题,训练分类模型时某些样本点可能比其它样本点更重要。所以提出了FSVM来解决这个问题,FSVM中模糊隶属函数根据每个样本点的重要性分配模糊隶属值,使用类中心方法来生成模糊隶属度。线性情形下,令 和 分别表示+1类的均值和半径, 和 表示−1类的均值和半径。其中 , 。对于训练样本点 ,其模糊隶属度 定义如下:
(5)
为了避免模糊隶属度 为0,设置常数 。
对于非线性分类问题,使用改进的核模糊隶属函数,定义为:
(6)
式(15)中,
其中 和 分别代表正类样本数和负类样本数。样本与模糊隶属度为 ,提出的模糊支持向量机定义为:
(7)
其中C是常数,较小的 减少了问题(7)中的参数 的影响,使得其相对应的样本点被视为不太重要的样本点。
结合Pin-SVM和FSVM,本节提出了基于弹球损失函数的模糊支持向量机(Pin-FSVM),将FSVM中的铰链损失函数替换为弹球损失函数,增强FSVM的性能。使用松弛变量的L1范数,所以提出的Pin-FSVM是凸二次规划问题,可以通过求解经典的凸二次规划问题,利用对偶问题来求解模型,其时间复杂化度与FSVM相同。
将弹球损失函数引入到传统的FSVM中,可得线性情况下Pin-FSVM的目标函数:
(8)
其等价约束形式如式(9)所示:
(9)
其中 和 为自定义参数, 和 分别为第i个输入训练样本点的模糊隶属度和松弛变量。
求解的式(9)是一个经典的凸二次规划问题,通过求解其对偶问题的解得到原问题的解,引入拉格朗日乘子法可得其拉格朗日函数,首先求解线性情况下的Pin-FSVM对偶问题,拉格朗日函数为:
(10)
其中 为拉格朗日乘子,在 中对 求偏导,并令其偏导数为0,可得:
(11)
所以式(9)的对偶问题转化为:
(12)
其中, 是拉格朗日乘子。
为了方便在求解器中求解所提出模型的参数,将Pin-FSVM模型的对偶问题转换为矩阵形式,其中 ,E为 的单位矩阵, , , , , ,X为样本矩阵, , , ,可将其对偶问题(12)的转化为以下矩阵形式:
(13)
在线性情况下通过求解对偶问题(13),可求解得 ,当 时,对应的样本为支持向量,任意的支持向量 均满足 ,即表示为:
(14)
其中 为所有支持向量的下标集,使所有支持向量求解的平均值求解偏置项:
(15)
求解出参数 后即可得Pin-FSVM决策函数为:
(16)
与基于铰链损失函数的模糊支持向量机类似,通过引入非线性映射 ,Pin-FSVM在非线性情况下目标函数同理得出:
(17)
其等价约束形式如(18)所示:
(18)
拉格朗日函数为:
(19)
通过引入核技巧,式(18)的对偶问题可以表示为:
(20)
其中 是核函数,常见的核函数为斯核函数: 。
在非线性情形下求解出Pin-FSVM的参数 后,决策函数为:
在本文中,使用CXVR优化包求解提出的Pin-FSVM模型的参数,求解过程如
算法:使用CVXR优化包求解Pin-FSVM的算法初始化1:对指定的核函数和核函数的参数,计算数据的内核距离;2:对于线性核函数,直接计算 ;3:对于非线性情况,使用高斯核函数,可计算内积 ;训练过程4:求解对偶问题线性情况式(13)矩阵形式的和非线性情况式(20)的解;5:将矩阵和数据传递给CVXR优化求解器求解出参数,并利用式(15)求解出偏置项;构建分类器6:对于给定的测试集,使用求解出的支持向量和参数以及核函数对数据进行分类;7:计算测试集数据和支持向量的内核,即可得决策函数为。 |
本文的数据来自UCI机器学习库(
变量类型 | 变量名 | 详细说明 | 取值范围 |
因变量 | 是否认购 | 客户认购的状态 | 0:不认购1:认购 |
解释变量 | 年龄(age) | 客户年龄,反应客户所处年龄阶段。 | 20~80 |
婚姻(marital) | 婚姻状况:“离婚”,“已婚”,“单身” | 0:单身1:离婚2:已婚 | |
住房(housing) | 分类变量:“未知”,“无”,“有” | −1:未知0:无住房贷款1:有住房贷款 | |
贷款(loan) | 分类变量:“未知”,“无”,“有” | −1:未知0:无个人贷款1:有个人贷款 | |
活动(campaign) | 活动期间为该客户进行的接触次数 | 取值为正整数 | |
变化率(emp.var.rate) | 就业变化率——季度指标 | 数值范围为:−3.4~1.4 | |
价格指数(cons.price.idx) | 消费者价格指数——月度指标 | 取值是数值,范围为:92.201~94.767 | |
信心指数(cons.conf.idx) | 消费者信心指数——月度指标 | 取值是数值,范围为:−50.8~−26.9 | |
月利率(euribor3m) | 银行3个月利率 | 范围为:0.635~5.045 |
(1) 年龄(age):该指标是银行客户的年龄,它反映的是客户存款能力。由于个人在不同年龄阶段创造财富的能力存在差异,因此他们在消费、储蓄中所分配的份额就会有所不同,银行针对个人的投资偏好、风险承受能力等因素,对处于不同生命周期中的顾客分配了不同的商品和服务。不同的年龄段对是否认购定期存款有重要的作用,客户的年龄反映客户的不同阶段,对绝大多数人来说在25~60岁的人生创造价值的时期,认购定期存款的概率要高一些。
(2) 婚姻(marital):该指标是客户的婚姻状况,用于反映客户的家庭情况之一。客户是否结婚与是否拥有稳定的经济来源有重要的关系,结婚的客户由于婚后需要较大的经济开销,单身的客户与已婚的客户相比,经济压力要小一些,所以更倾向于办理定期存款业务,当然,已婚的客户在后期经济足够稳定后也有很大的概率为孩子和以后的生活有保障认购定期存款。
(3) 住房(housing):该指标是反映客户是否有住房贷款,住房贷款是银行及其他金融机构向房屋购买者提供的任何形式的购房贷款支持,通常以所购房屋作为抵押。住房贷款反映客户的经济情况,有住房贷款的客户可能认购定期存款的概率要比没有住房贷款的客户低。住房贷款也从侧面反映了客户的家庭情况,是一个比较重要的指标。
(4) 贷款(loan):该指标是反映客户是否有个人贷款,有个人贷款的客户一般情况下不会认购定期存款,而没有个人贷款的客户有很大的可能认购定期存款,这个指标可以比较直观的反映客户认购定期存款的情况。
(5) 活动(campaign):该指标反映银行在这个活动期间与这个客户进行的接触次数(包括最后一次接触),接触次数代表该客户是否认购定期存款的概率,接触的次数越多代表客户越不可能认购,该指标是正整数,直观地反映了客户认购存款的需求。
(6) 变化率(emp.var.rate):该指标反映的是就业变化率,是季度指标。就业率是反映社会劳动力就业程度的指标。指在业人员占在业人员与待业人员之和的百分比。它反映全部可能参与社会劳动的劳动力中,而实际被使用的人员比重。一段时期在业人员越多或待业人员越少,则就业率就越高,反之越低。计算和研究就业率,实质上是要提高就业的经济效益。就业变化率是一个宏观指标,是体现该时期整体社会的经济情况指标之一,所以对客户是否认购存款有重要的作用,就业变化率高,定期存款就少一些,反之,就业变化率稳定,定期存款就多。
(7) 价格指数(cons.price.idx):该指标是消费者价格指数,是月度指标。价格指数反映居民家庭一般所购买的消费商品和服务价格水平变动情况的宏观经济指标。CPI及其分类指数还是计算国内生产总值以及资产、负债、消费、收入等实际价值的重要参考依据。价格指数与客户是否认购定期存款也有直接关系,价格指数水平的上升,意味着实际利率的下降,如果存款利率保持不变,价格指数持续上涨后,甚至可能出现负利率,使存款人遭受损失。所以为了继续吸引存款,就要弥补价格指数上涨给存款人带来的损失,银行就必须考虑合理的策略提高利率水平。所以,利率水平与CPI具有同向变化的趋势,价格指数水平的变动成为影响利率水平的因素之一,其对客户是否定期存款也造成了影响。
(8) 信心指数(cons.conf.idx):该指标是消费者信心指数,月度指标。消费者信心指数是一个衡量消费者对经济状况的信心程度的指标。消费者信心指数通常通过对消费者信心水平的调查来确定。调查通常涉及消费者对经济、就业、通货膨胀、个人财务状况等方面的看法。消费者信心指数越高,消费者越有可能在购买决策中表现出更积极的态度,反之亦然。它不仅可以反映出消费者对未来经济发展和个人财务状况的看法,也可以影响企业和政府的决策。消费者信心指数直接反映了整体是否认购定期存款的可能性,从宏观上体现了定期存款。
(9) 月利率(euribor3m):该指标是欧洲银行3个月利率的每日指标,反映银行存款的月利率。月利率指以每个月为计算利息周期计算的利息(其中一个月内的利息额与存款、贷款本金的比率)利率按本金的千分之几表示。银行月利率的高低与客户是否认购定期存款成正比,月利率高,客户认购的定期存款就越多。
在本节中进行实证研究,将提出的Pin-SVM应用于定期存款预测模型,实验都在R4.3.1中进行,在基于系统配置Intel(R) Core(TM) i7-10700 CPU(2.90GHz)和16 GB RAM的PC上运行,使用优化工具包CVXR求解模型。关于模型参数的设置,对于SVM、Pin-SVM、FSVM和Pin-FSVM,设置
;设置Pin-SVM和Pin-FSVM中
的取值范围为
。非线性情况,考虑高斯核函数,评价指标为准确率(Acc.)。对于所有模型参数的选择,本文使用五折交叉验证法来搜索模型的最优参数。为了消除实验随机性的影响,进行10次数值实验,计算评价指标的平均值(Acc.)和标准差(sd)。考虑实际数据为非线性可分,所以建立高斯核函数下非线性可分模型,模型结果如
SVMAcc. ± sd | FSVMAcc. ± sd | Pin-SVMAcc. ± sd | Pin-FSVMAcc. ± sd | |
数据集 | 0.6995 ± 0.025 | 0.672 ± 0.026 | 0.701 ± 0.027 | 0.713 ± 0.027 |
在当今的金融服务行业中,银行需要一种高效且准确的方法来识别其客户中哪些人可能倾向于认购定期存款。为了满足这一需求,本文提出了一种新的Pin-FSVM预测模型,模型结合了弹球损失函数和模糊隶属度的概念。通过将FSVM中的铰链损失函数替换为弹球损失函数,并结合模糊隶属度的概念,Pin-FSVM不仅能够在存在噪声的情况下保持较高的预测准确率,还能更好地处理数据中的不确定性。这种结合使得Pin-FSVM在客户认购存款的预测任务中展现出了更好的性能。当Pin-FSVM被应用于银行客户认购存款的预测时,它能够准确地识别出那些更有可能选择认购定期存款的客户,增强了其预测准确率,为银行更好地识别和服务其客户群体提供了有力支持。这不仅有助于银行更精确地了解其客户群体的需求,还能帮助银行制定更有针对性的营销策略,从而提高客户满意度和忠诚度。