基于Actor-Critic强化学习的再保险与投资问题
Reinsurance and Investment Problems Based on Actor-Critic Reinforcement Learning
DOI: 10.12677/aam.2025.144146, PDF, HTML, XML,   
作者: 欧 萍, 卢相刚*:广东工业大学数学与统计学院,广东 广州
关键词: 再保险投资制度转换强化学习Reinsurance Investment Regime-Switching Reinforcement Learning
摘要: 本文研究了具有普通理赔和巨灾理赔两个业务线的保险公司的最优再保险和投资策略。它假设公司购买风险资产受到随机市场影响,索赔的时间和规模受到随机因素的影响,同时考虑金融市场和保险市场之间的共同冲击。建立了一个优化准则,以最大化在有限时间范围内保险公司的累积财富效用。然后,利用动态规划原理和Itô公式,我们推导了Hamilton-Jacobi-Bellman (HJB)方程。由于扩散过程和状态切换的复杂性,很难找到精确的解,因此本文采用了数值方法(Actor-Critic强化学习算法)。最后,我们给出一个数值例子。
Abstract: This paper studies the optimal reinsurance and investment strategies of insurance companies with two business lines: general claims and catastrophic claims. It assumes that the company’s purchase of risky assets is influenced by random market factors, and the timing and scale of claims are affected by random factors, while considering the joint impact between the financial market and the insurance market. An optimization criterion has been established to maximize the cumulative wealth utility of insurance companies within a limited time frame. Then, using the principles of dynamic programming and the Itô formula, we derived the Hamilton Jacobi Bellman (HJB) equation. Due to the complexity of the diffusion process and state switching, it is difficult to find an exact solution, so this paper adopts a numerical method (Actor-Critic reinforcement learning algorithm). Finally, we provide a numerical example.
文章引用:欧萍, 卢相刚. 基于Actor-Critic强化学习的再保险与投资问题[J]. 应用数学进展, 2025, 14(4): 135-142. https://doi.org/10.12677/aam.2025.144146

1. 引言

随着金融市场的复杂性和不确定性不断增加,保险公司在再保险和投资策略优化方面受到越来越大的挑战。强化学习(Reinforcement Learning, RL)作为一种数据驱动的优化方法,逐渐在金融领域得到了广泛关注[1]。近年来,强化学习已被成功地应用于解决各种复杂的决策问题。它不仅可以解决离散时间的优化问题,也可以解决连续时间的优化问题。例如,Wang和Zhou等人[2]在RL框架下研究了连续时间和空间中的探索性随机控制问题,Jia和Zhou等人[3]在演员–评论家RL框架下研究了连续时间和空间中的政策梯度(PG)。此外,Zhou等人[4]提出了一种基于Actor-Critic的数值方法,用于求解高维Hamilton-Jacobi-Bellman (HJB)方程,通过学习确定性策略和策略梯度,显著提升了样本利用率并优化了控制效果。

在再保险和投资策略优化领域,强化学习的应用展现出巨大潜力。通过与环境的实时交互,Actor-Critic算法能够动态学习最优的再保险比例和投资策略,从而实现风险与收益的平衡。Jin等人[5]提出了一种混合强化学习框架,将再保险决策与投资组合优化相结合,显著提升了保险公司的风险调整收益。Li等人[6]则在随机波动和市场切换环境下,利用强化学习和马尔可夫链切换模型,优化了再保险和投资策略,以最小化破产概率。受到这些研究的启发,我们构建了一个基于Actor-Critic算法的再保险与投资模型,将最优比例再保险和投资问题建模为马尔可夫决策过程(Markov Decision Process, MDP),并设计了相应的状态空间、动作空间和奖励函数。本文旨在填补现有研究的空白,提出一种基于Actor-Critic强化学习框架的最优再保险与投资问题,以解决保险公司在有限时间范围内的累计财富效用最大化问题。

本章的概述如下,第2节介绍了一个金融和保险市场模型及其优化问题,其中我们假设环境因素只影响保险业务,状态切换只影响金融市场,灾难性索赔与风险资产价格之间受到共同冲击。第3节利用Actor-Critic强化学习方法建立适当的数值近似算法并解决随机优化控制问题。第4节给出了一个数值例子。

2. 模型与优化问题

基于对再保险和投资现状的深入研究,我们构建了一家保险公司涵盖两条业务线的模型。设 ( Ω , , F , ) 为滤波概率空间,其中滤波 F = { t } t 0 满足通常条件。

2.1. 财富过程

在保险市场中,我们假设保险公司的盈余过程满足以下方程:

d R t ( k ) , u t ( k ) = [ c ( k ) ( t , Y t ( k ) ) q ( k ) ( t , Y t ( k ) , u t ( k ) ) ] d t 0 + z u t ( k ) m ( k ) ( d t , d z ) .

其中 R t ( k ) , u t ( k ) , k = 1 , 2 , t [ 0 , + ) ,表示保险公司在两条业务线下的盈余过程, u t ( k ) t时刻保险公司购买再保险时的自留比, c ( k ) ( t , Y t ( k ) ) 表示保险保费, q ( k ) ( t , Y t ( k ) , u t ( k ) ) 表示再保险保费。

累计索赔过程 S = { S t , t [ 0 , ) } 定义为:

S t = S t ( 1 ) + S t ( 2 ) = n = 1 N t ( 1 ) Z n ( 1 ) + n = 1 N t ( 2 ) Z n ( 2 ) .

其中, S t ( 1 ) S t ( 2 ) 分别表示保险公司在 [ 0 , t ] 内两条业务线(普通理赔和灾难性理赔)的累计索赔规模,

{ N t ( 1 ) } t 0 { N t ( 2 ) } t 0 分别表示两条业务线的独立计数过程, { Z n ( k ) , n 1 } , k = 1 , 2 表示保险公司的第n个索赔金额,是正独立同分布随机变量的序列。

随机因 Y t ( k ) 子满足以下方程:

d Y t ( k ) = b ( k ) ( t ) d t + a ( k ) ( t ) d W t ( k ) , Y 0 ( k ) = y ( k ) , k = 1 , 2.

其中 W t ( 1 ) W t ( 2 ) 是相互独立的布朗运动, a ( k ) ( t ) , b ( k ) ( t ) 是可测函数。设 m ( k ) ( d t , d z ) 代表与 S t ( k ) 相关联的随机计数测度。且满足如下关系:

m ( k ) ( d t , d z ) = n δ ^ { ν n ( k ) , Z n ( k ) } ( d t , d z ) I { ν n ( k ) < + }

对于 k = 1 , 2 ,其中 δ ^ { t , z } 表示在点 ( t , z ) 处的Dirac测度, ν n ( k ) 表示索赔到达时间(即 { N t ( k ) } t 0 的跳跃时间),z是索赔大小并且具有 F ( k ) ( z ) : ( 0 , 1 ) 的分布。

引理2.1 假设 N t ( k ) , k = 1 , 2 ,是由随机强度 λ ( k ) ( t , Y t ( k ) ) : [ 0 , + ) × ( 0 , + ) 表示的计数过程, Y t ( k ) 表示影响索赔到达强度的环境因素,并将测度 m ( k ) ( d t , d z ) 的对偶可预测投影定义如下:

v ( k ) ( d t , d z ) = λ ( k ) ( t , Y t ( k ) ) F ( k ) ( d z ) d t .

证明:请参见文献[7]

在金融市场中,我们假设保险公司将部分盈余投资风险资产,其价格遵循如下几何布朗运动过程:

d P t = P t [ μ ( α ( t ) ) d t + σ ( α ( t ) ) d W ( t ) 0 + K ( t , z ) m ( 2 ) ( d t , d z ) ] .

其中 { P t } t 0 表示风险资产的价格,对于每一个 i M μ ( α ( t ) ) 是风险资产的收益率, σ ( α ( t ) ) ( 0 , + ) 是风险资产的波动率, K ( t , z ) : [ 0 , + ) × [ 0 , + ) [ 0 , 1 ) 表示风险资产的跳跃规模 { W t } t 0 是标准几何布朗运动。在有限空间 = { 1 , , m } 中,连续时间马尔可夫链 α ( t ) 是时间t的随机市场。这里 α ( t ) 表示经历风险资产过程马尔可夫状态切换的市场状态,由 Q = ( q i j ) m × m 生成。符号表示如下:

P { α ( t + δ ) = j | α ( t ) = i , α ( s ) , s t } = { q i j δ + o ( δ ) , if j i 1 + q i i δ + o ( δ ) , if j = i

此外,假设保险公司还将盈余投资于无风险资产,其价格满足以下随机微分方程:

d B t = r ( t ) B t d t .

其中 { B t } t 0 表示无风险资产价格, r ( t ) 为无风险资产利率。

π t + 表示投资于风险资产的盈余总额,即不允许卖空。建立财富过程:

d X t ξ = d R t ( 1 ) , u ( 1 ) + d R t ( 2 ) , u ( 2 ) + π t d P t P t + ( X t ξ π t ) d B t B t , X 0 ξ = x + ,

其中, ξ = { ξ t = ( u t ( 1 ) , u t ( 2 ) , π t ) } t 0 是再保险与投资策略。代入化简后,保险公司的财富过程如下:

d X t ξ = [ c ( 1 ) ( t , Y t ( 1 ) ) + c ( 2 ) ( t , Y t ( 2 ) ) q ( 1 ) ( t , Y t ( 1 ) , u t ( 1 ) ) q ( 2 ) ( t , Y t ( 2 ) , u t ( 2 ) ) + π t ( μ ( α ( t ) ) r ( t ) ) + X t ξ r ( t ) ] d t + σ ( α ( t ) ) π t d W ( t ) 0 + z u t ( 1 ) m ( 1 ) ( d t , d z ) 0 + ( z u t ( 2 ) + π t K ( t , z ) ) m ( 2 ) ( d t , d z ) .

2.2. 优化目标

下面我们介绍了随机最优控制问题。保险公司的目标是使其财富的期望累积效用最大化,即最大化以下优化问题

J ( s , x , y ( 1 ) , y ( 2 ) , i , ξ ) = E s , x , y ( 1 ) , y ( 2 ) , i [ s T e ρ ( t s ) U ( X t ξ ) d t + h ( X T ξ ) ] ,

其中, U ( x ) = 1 e γ x 表示保险公司的指数偏好, h ( x ) 代表终端函数, ρ 代表贴现系数, γ 为保险公司的相对风险厌恶系数,s为初始时间, s [ 0 , ) T为保险合同终止时间。

定义可容许控制集 π t + ,最优控制问题的值函数定义为:

V ( s , x , y ( 1 ) , y ( 2 ) , i ) = sup ξ Ξ J ( s , x , y ( 1 ) , y ( 2 ) , i , ξ ) .

由动态规划原理和伊藤公式,得出相应的HJB方程如下:

0 = V s + sup ξ U { ( c ( 1 ) ( s , y ( 1 ) ) + c ( 2 ) ( s , y ( 2 ) ) q ( 1 ) ( s , y ( 1 ) , u ( 1 ) ) q ( 2 ) ( s , y ( 2 ) , u ( 2 ) ) + π ( μ ( i ) r ( s ) ) + x r ( s ) ) V x + b ( 1 ) ( s ) V y ( 1 ) + b ( 2 ) ( s ) V y ( 2 ) + 1 2 σ ( i ) 2 π 2 V x 2 + 1 2 ( a ( 1 ) ) 2 ( s ) V y ( 1 ) 2 + 1 2 ( a ( 2 ) ) 2 ( s ) V y ( 2 ) 2 + j i q i j ( V ( s , x , y ( 1 ) , y ( 2 ) , j ) V ( s , x , y ( 1 ) , y ( 2 ) , i ) ) + 0 x ( V ( s , x z u ( 1 ) , y ( 1 ) , y ( 2 ) , i ) V ( s , x , y ( 1 ) , y ( 2 ) , i ) ) λ ( 1 ) ( s , y ( 1 ) ) F ( 1 ) ( d z ) + 0 x ( V ( s , x z u ( 2 ) π K ( α ( s ) , z ) , y ( 1 ) , y ( 2 ) , i ) V ( s , x , y ( 1 ) , y ( 2 ) , i ) ) λ ( 2 ) ( s , y ( 2 ) ) F ( 2 ) ( d z ) ρ V ( s , x , y ( 1 ) , y ( 2 ) , i ) + U ( x ) } ,

其中 V = V ( s , x , y ( 1 ) , y ( 2 ) , i ) V 2 = 2 V ( s , x , y ( 1 ) , y ( 2 ) , i ) 2 = s , x , y ( 1 ) , y ( 2 )

通常,如果V足够光滑,我们可以用动态规划原理将其描述为HJB方程的解。然而,上述HJB方程的显式解不容易获得,因此我们采用数值求解方法。

3. 数值算法

基于强化学习中的演员–评论家(Actor-Critic)框架,可以同时求解价值函数和策略函数,针对评论家的策略评估(Policy Evaluation, PE)和针对演员的策略迭代(Policy Iteration, PI)。目前,在Actor-Critic框架下已经开发了许多算法,例如文献[8] [9]

3.1. 策略评估

在本节中,我们开发相应的PE程序,并使用函数逼近方法来获得价值函数的估计。现在让我们将连续设置中的TD误差定义为:

T D ξ = s T e ρ ( t s ) U ( X t ξ ) d t + e ρ ( T s ) V ξ ( T , x T , y T ( 1 ) , y T ( 2 ) , α T ) s T e ρ ( t s ) V x ξ σ ( α ( t ) ) π t d W t s T e ρ ( t s ) V y ( 1 ) ξ a ( 1 ) ( t ) d W t ( 1 ) s T e ρ ( t s ) V y ( 2 ) ξ a ( 2 ) ( t ) d W t ( 2 ) V ξ ( s , x , y ( 1 ) , y ( 2 ) , i ) .

我们进一步为评论家定义以下损失函数:

L ( θ V , θ G ) = E s , z , i [ 1 2 ( T D ξ ) 2 ] = E s , z , i [ 1 2 ( s T e ρ ( t s ) U ( X t ξ ) d t + e ρ ( τ s ) V ξ ( τ , x , y ( 1 ) , y ( 2 ) , i ; θ V ) s T e ρ ( t s ) V x ξ ( t , x , y ( 1 ) , y ( 2 ) , i ; θ G ) σ ( α ( t ) ) π t d W t s T e ρ ( t s ) V y ( 1 ) ξ ( t , x , y ( 1 ) , y ( 2 ) , i ; θ G ) a ( 1 ) ( t ) d W t ( 1 ) s T e ρ ( t s ) V y ( 2 ) ξ ( t , x , y ( 1 ) , y ( 2 ) , i ; θ G ) a ( 2 ) ( t ) d W t ( 2 ) V ξ ( s , x , y ( 1 ) , y ( 2 ) , i ; θ V ) ) 2 ] .

3.2. 策略梯度

在本小节中,我们介绍演员部分,并使用策略梯度来改进演员的策略。回忆我们的最优控制问题并利用动态规划原理,对于最优值函数V,我们有

V ( s , x , y ( 1 ) , y ( 2 ) , i ) = sup ξ Ξ E s , x , y ( 1 ) , y ( 2 ) , i , ξ [ s T e ρ ( t s ) U ( X t ξ ) d t + e ρ ( T s ) V ( T , x T , y T ( 1 ) , y T ( 2 ) , α T ) ] .

其中, ξ 是最优控制,即控制 ξ 应该最大化右侧的功能函数。定义 τ = inf { t 0 , X ( t ) < 0 } 为破产时间,考虑停止时间 τ ,我们可以使用以下目标函数来定义演员(Actor)的目标

J ( s , x , y ( 1 ) , y ( 2 ) , i , ξ ) = E s , x , y ( 1 ) , y ( 2 ) , i , ξ [ s T τ e ρ ( t s ) U ( X t ξ ) d t + e ρ ( T τ s ) V ( T τ , x T τ , y T τ ( 1 ) , y T τ ( 2 ) , α T τ ) ] .

我们将函数导数近似为

J = E s , x , y ( 1 ) , y ( 2 ) , i , ξ [ s T τ e ρ ( t s ) γ e γ x t δ X t δ θ ξ d t + e ρ ( T τ s ) ( δ   V δ x δ X T τ δ θ ξ + δ V δ y ( 1 ) δ Y T τ ( 1 ) δ θ ξ + δ V δ y ( 2 ) δ Y T τ ( 2 ) δ θ ξ ) ] .

4. 数值算法

在本节中,我们通过一个基本的例子和敏感性分析,深入探讨了如何找到最优的比例再保险和投资策略使得在有限时间范围内保险公司的累计财富效用最大化问题。

4.1. 一个基本的例子

在这一部分,我们设置了一组合理的参数进行数值实验。让 δ = 0.001 μ 1 = 0.1 μ 2 = 0.2 σ 1 = 0.1

σ 2 = 0.2 Q = ( 2 2 1 1 ) r = 0.05 ρ = 0.1 γ = 0.5 b ( 1 ) ( t ) = 0.8 b ( 2 ) ( t ) = 0.4 a ( 1 ) ( t ) = 0.2 a ( 2 ) ( t ) = 0.1

假设索赔的到达强度为

{ λ ( 1 ) ( t , y ( 1 ) ) = λ ( t ) f 1 ( y ( 1 ) ) , λ ( 2 ) ( t , y ( 2 ) ) = λ ( t ) f 2 ( y ( 2 ) ) ,

其中 λ ( t ) = 2 t + 1 f 1 ( y ( 1 ) ) = y ( 1 ) + 1 ( 1 , 2 ) f 2 ( y ( 2 ) ) = y ( 2 ) ( 0 , 1 ) y ( 1 ) , y ( 2 ) [ 0 , 1 ] 。设 F ( 1 ) ( z ) = 1 e a z F ( 2 ) ( z ) = 1 e b z b > a > 0 z > 0 θ = 0.3 θ R = 0.4 a = 2 b = 5 E [ Z ( 1 ) ] = 1 / 2 E [ Z ( 2 ) ] = 1 / 5 。在期望值原则下,我们有

{ c ( 1 ) ( t , y ( 1 ) ) = ( 1 + θ ( 1 ) ) E [ Z ( 1 ) ] λ ( 1 ) ( t , y ( 1 ) ) , c ( 2 ) ( t , y ( 2 ) ) = ( 1 + θ ( 2 ) ) E [ Z ( 2 ) ] λ ( 2 ) ( t , y ( 2 ) ) , q ( 1 ) ( t , y ( 1 ) , u ( 1 ) ) = ( 1 + θ R ( 1 ) ) E [ Z ( 1 ) ] ( 1 u ( 1 ) ) λ ( 1 ) ( t , y ( 1 ) ) , q ( 2 ) ( t , y ( 2 ) , u ( 2 ) ) = ( 1 + θ R ( 2 ) ) E [ Z ( 2 ) ] ( 1 u ( 2 ) ) λ ( 2 ) ( t , y ( 2 ) ) .

设学习率0.01,时间间隔0.001,3个隐藏层,128个隐藏层维度,200次迭代,批量500,我们用python软件计算得到如下图。

Figure 1. The control u 1 , u 2 and π

1. 控制 u 1 u 2 π

图1中,我们可以看到,在上述数据设置下,两项保险业务的保险自留比例随着财富增长而降低,投资于风险资产的金额也随之降低。保险公司在期望原则下,选择较低的自留比例,即再保险比例上升,把索赔风险分担出去。这样做,虽然再保险保费上升,但是保险公司需要付出自己部分的索赔金额就越少了,总体而言财富是在累积上升,符合目标函数的假设。因此,对于普通索赔和灾难索赔到来时,保险公司面临着巨大的赔款,此时会选择把索赔风险分担出去,即购买再保险业务,从而再保险比例上升,保险自留比例下降。那么对于保险公司的索赔损失、购买再保险费用就能够从获取的保费中弥补回来,并且总财富在上升。同时,对于灾难性保险的自留比例 u 2 比普通保险的自留比例 u 1 要小,说明灾难性索赔支付的金额更加巨大,保险公司更倾向于将其风险分担出去。

此外,我们可以看见由于资产市场的价格不稳定,造成投资于风险资产的金额部分会减少到一定值后趋于稳定,也就是说,保险公司在动荡的金融市场中会选择较为稳定的无风险资产,以此维持财富的增加。

4.2. 敏感性分析

我们分别采取不同的厌恶系数 γ 和索赔速率 λ ( t ) 来研究对值函数的影响。

Figure 2. The influence of different aversion coefficients γ and claim rates λ ( t ) on the value function

2. 不同的厌恶系数 γ 和索赔速率 λ ( t ) 对值函数的影响

图2(a)中,我们看到随着厌恶系数 γ 的增长,值函数也在不断增加。在图2(b)中,随着索赔速率 λ ( t ) 的增加,值函数也在不断上涨。可能原因如下:第一,在效用函数U中,U是关于厌恶系数的增函数,当越大时,效用函数也越大,那么值函数就会增长。第二,索赔速率 λ ( t ) 影响索赔到达强度,进而影响保费的收入,当索赔速率 λ ( t ) 越大时,两条保险业务线的保费金额也会增加,这给保险公司带来较大的财富。索赔金额虽然也在增长,但是保险公司通过调整再保险策略,把风险分担出去,使得利润还是正增长,从而保持了财富的增长。总之,这两个参数都会对值函数产生比较大的影响。有效利用参数,能够使效用最大化。

NOTES

*通讯作者。

参考文献

[1] Sutton, R.S. and Barto, A.G. (1998) Reinforcement Learning: An Introduction. MIT Press.
[2] Wang, H., Zariphopoulou, T. and Zhou, X.Y. (2020) Reinforcement Learning in Continuous Time and Space: A Stochastic Control Approach. Journal of Machine Learning Research, 21, 1-34.
[3] Jia, Y. and Zhou, X. (2021) Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms. SSRN Electronic Journal.
https://doi.org/10.2139/ssrn.3969101
[4] Zhou, M., Han, J. and Lu, J. (2021) Actor-Critic Method for High Dimensional Static Hamilton-Jacobi-Bellman Partial Differential Equations Based on Neural Networks. SIAM Journal on Scientific Computing, 43, A4043-A4066.
https://doi.org/10.1137/21m1402303
[5] Jin, Z., Yang, H. and Yin, G. (2021) A Hybrid Deep Learning Method for Optimal Insurance Strategies: Algorithms and Convergence Analysis. Insurance: Mathematics and Economics, 96, 262-275.
https://doi.org/10.1016/j.insmatheco.2020.11.012
[6] Li, L. and Qiu, Z. (2025) Time-Consistent Robust Investment-Reinsurance Strategy with Common Shock Dependence under CEV Model. PLOS ONE, 20, e0316649.
https://doi.org/10.1371/journal.pone.0316649
[7] Brémaud, P. (1981) Point Processes and Queues. Springer.
[8] Pik, J., Chan, E.P., Broad, J., et al. (2025) Hands-On AI Trading with Python, Quant Connect, and AWS. Wiley.
[9] Liu, Y., Zhang, K., Basar, T., et al. (2020) An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods. Advances in Neural Information Processing Systems, 33, 7624-7636.

Baidu
map