The Study of Cooperative Behaviour in Network Evolutionary Games Based on Reinforcement Learning
Reinforcement learning is increasingly becoming an important tool for scholars to study evolutionary games due to its features of self-learning and online learning ability. In this paper, the SARSA algorithm (State-Action-Reward-State-Action) is introduced into the network game, and an evolutionary game model based on the SARSA algorithm is proposed, and numerical simulations are conducted on four network topologies using three reinforcement learning decision-making mechanisms. Experiments show that the introduction of the algorithm can significantly improve the level of cooperation of individuals in the network and will be stably maintained in an interval range. In addition, the effects of different parameter settings of the algorithms, the heterogeneity of the payoff matrices and the global attributes of the individuals on the network cooperation are also explored, and the results show that there is a better facilitation of cooperation among individuals at lower learning rates and higher discount rates as well as moderate individual payoffs.
Network Evolution Game
在社会和自然界中,人类及动物的本能就是利己主义的,每个理性的个体为了让自己的利益最大化,通常不会和其他个体采取合作的策略,这与现实世界中普遍存在的合作现象产生了矛盾
囚徒困境(PDG)作为演化博弈论中最典型的模型,被认为是研究自私个体之间群体合作行为出现的有力工具,它揭示了社会困境中个体和群体间利益冲突的本质,是研究合作行为的主要范式
演化博弈的基本三要素之一就是策略集合。常见的策略更新规则有模仿最优者
本文采用三种强化学习的SARSA算法决策机制在四种不同的网络拓扑结构上进行仿真模拟实验来探讨引入强化学习算法对网络节点合作演变的影响。
利用Pycharm构建四种网络模型进行本文的实验仿真(随机网络、规则网络、无标度网络、小世界网络)。
构建好网络模型后,网络中的每个节点代表着参与博弈演化的理性个体。它们每次只能在背叛(D)或合作(C)这两种纯策略中选择其一,如式(1)的描述:
或 (1)
本文的演化博弈模型采用Nowak与May在1992年提出的弱囚徒困境博弈模型
(2)
在每轮迭代中,参与者与其相邻的节点进行一轮囚徒困境游戏,其中个体的收益总和会受到收益矩阵的影响。具体而言,一个个体获得的总收益是通过与其所有邻居的互动后累积得到的,如公式(3)所示:
(3)
表示个体i的所有邻居集合,j为i的一个邻居。M表示收益矩阵。
在传统的囚徒困境模型中,参与者倾向于模仿上一次交互中获取最大收益的邻居策略,以此来提升自己未来的收益。但随着对信息隐私重视程度的提高,直接获取邻居的具体收益数据变得越来越困难,因此参与者需要依赖自身累积的经验,通过持续学习优化自己的策略选择。鉴于此,本文提出了一种基于SARSA算法的演化博弈PDG模型。
SARSA算法是一种通过不断积累探索经验来提升决策能力的方法,无需建立环境模型并且可被在线使用。通过学习最优策略来处理不确定性信息和采取最佳动作来最大化累计奖励。该算法的这一特性非常适用于不完全信息博弈。
在SARSA算法中, 表示状态集合, 表示动作集合。在初始演化博
弈阶段,理性个体都以1/2的概率随机地选择背叛或合作。在后续演化过程中的任意时刻t,智能体通过
感知当前环境状态 ,根据动作策略选择执行动作 到达下一状态 ,同时获得奖励 ,然后基于 更新Q表及优化策略,由此每个个体来进行下一轮的策略选择。更新公式为:
(4)
式中的 表示在状态 选择动作 的Q值; 表示在下一个状态 时选择下一步动作 并执行的Q值,即下一步的策略; 表示个体的学习率,控制着每轮游戏更新新信息时对旧Q值的影响权重; 表示折扣因子,是表示未来奖励重要性的参数; 代表个体在状态 执行动作 后从环境中获得的即时奖励,由公式(5)给出:
(5)
表示个体i的收益总和,n表示个体i的邻居数量, 用来调节个体收益均匀性。
文章选择ε-greedy
(6)
表示状态 中具有最大Q值的动作,每轮游戏结束后, 替换成 。
输入:网络拓扑结构参数、SARSA算法相关参数 输出:网络节点合作水平值、节点收益值 |
1) 随机初始化个体状态s并令其 表格为0; 2) 使用ε-greedy策略选择动作a并执行; 3) 此后每个回合,个体i以固定概率ε进行随机探索或以 的概率选择当前最优策略与其邻居进行博弈;而个体i的邻居只根据其Q表来选择最优动作并执行;每次回合结束时,个体i及其邻居的行为共同决定了个体i应获得的奖励值; 4) 每个回合结束后个体i根据公式(4)更新 值,并在下一个回合中依据公式(6)选择策略; 5) 重复步骤3~4,直到动态系统达到稳定状态。 |
与ε-greedy不同的是Boltzmann决策机制有一个平滑的概率分布,允许更好地控制探索与利用之间的平衡,算法流程见
(7)
其中,
(8)
t是博弈的次数,λ是重复博弈次数t的函数。对每个动作a,计算一个概率分数,其与该动作的价值相关。然后,使用Softmax函数将这些分数转化为概率分布P,其中参数t控制了探索的程度,t越大,智能体决策的随机性越大。概率高的动作更有可能被选择,但仍有一定概率选择其他动作。Boltzmann决策机制结合SARSA算法具有自适应学习的能力。
输入:网络拓扑结构参数、SARSA算法相关参数 输出:网络节点合作水平值、节点收益值 |
1) 随机初始化个体状态s并令其 表格为0; 2) 使用Boltzmann策略选择动作a并执行; 3) 此后每个回合,个体i与其邻居进行博弈并以P的概率选择动作并执行
4) 每个回合结束后个体i根据公式(4)更新 值,并在下一个回合中依据公式(6)选择策略; 5) 重复步骤3~4,直到动态系统达到稳定状态。 |
输入:网络拓扑结构参数、SARSA算法相关参数 输出:网络节点合作水平值、节点收益值 |
1) 随机初始化个体状态s并令其 表格为0; 2) 使用Max-plus作为策略选择机制选择动作a并执行; 3) 此后每个回合,个体i以 的概率依据公式(11)选择最优策略 或以固定概率ε进行随机探索,而个体i的邻居在每个回合时依据其状态以公式(11)选择其最优动作 执行。每次博弈回合结束时,个体i及其邻居的行为共同决定了个体i应获得的奖励值; 4) 每个回合结束后个体i根据公式(4)更新 值,并在下一个回合中依据公式(12)选择策略; 5) 重复步骤3~4,直到动态系统达到稳定状态。 |
使用Max-plus决策机制作为SARSA算法的动作选择机制(记为MS)。Max-plus决策机制通过选择具有最高预期回报的动作来最大化价值函数。其在每个时间步骤中,根据当前状态的价值函数,考虑到个体的全局属性,使个体能够在没有全局信息的情况下找到全局最优解,具体算法流程见
是邻居j发送给i的信息; 表示除个体j以外的i的其他所有邻居给其发的信息集合; 表示个体i最优动作的值函数,如公式(10):
(10)
表示网络中所有个体传出信息的平均值,如公式(11):
(11)
i的最优动作决策如式(12):
(12)
为对实验结果进行定量分析,引入 表示合作者的频率作为实验结果评估指标,即合作者节点数量除以网络中节点总数。显而易见,合作频率 介于0与1之间。 表示网络全由背叛者构成; 则表示所有节点均采取合作行为;本文探讨的四种网络模型包括无标度网络(BA网络)、随机网络(ER网络)、规则网络(RG网络)和小世界网络(WS网络),均基于有限节点 构建。RG是最简单的网络,网络中任意两点间的连接都遵循一样的规则;BA的分布服从幂律分布,具有网络增长和优先连接的特点,互联网、社会网络等都属于BA的一种;ER是一种节点机会都相同的网络模型,在现实中有很广泛的应用意义;WS具有较大的聚集系数和较小的特征路径长度,可以让陌生人通过一条较短的熟人链条联系起来;由此,这四个经典的网络模型被广泛用于复杂网络上演化博弈领域的研究,本文的仿真实验也以这四种网络模型为基础来验证算法提出的有效性。
在最开始的实验阶段,以合作者和背叛者的比例相同开始实验,分别在四个网络模型上进行仿真模拟。并以BA网络为代表,探究参数设置的改变分析引入的三种决策机制对合作行为的影响。
动态系统在1000个仿真步长后达到稳定状态,取稳定状态下的100次数据的平均值作为网络合作水平。总体上,引入强化学习能显著提升网络的整体合作水平,并且相对较快地达到一个稳定的合作状态,合作水平的波动范围较小且维持在一个较稳定的区间内。
图1. 不同ε值下的合作水平(a) (b)
由
图2. 四种网络结构下的合作水平(a) BA网络;(b) ER网络;(c) RG网络;(d) WS网络
实验结果如
即使是在异质性网络的背景下,使用了强化学习决策机制的算法依然可以很明显地提高整个网络的合作水平。因此,我们可以得出一个结论:这三种决策机制具有很好的鲁棒性,无论是何种网络拓扑结构,它都能够很显著地促进合作。
参数b的大小直接影响个体的收益情况。对于不同的b,实验使用三种决策机制的SARSA算法与传统的博弈网络进行对比。由
文献
α表示个体的学习率,控制每次更新的权重,决定了新信息对旧Q值的影响程度。如
图4. 不同α值下的网络合作水平(a) ES-PDG,(b )BS-PDG,(c) MS-PDG
γ是确定个体在博弈中未来奖励重要性的折扣因子,控制在更新过程中考虑未来奖励的程度;由
图5. 不同γ值下的网络合作水平(a) ES-PDG,(b) BS-PDG,(c) MS-PDG
文献
图6. 收益异质性对网络合作水平的影响(a) ES-PDG,(b) BS-PDG,(c) MS-PDG
由
图7. 三种决策机制下的平均收益(a) ,(b)
本文将强化学习算法的决策机制与演化博弈中个体的策略更新步骤进行融合,深入地剖析了复杂网络中新算法的引入对合作行为演化带来的影响。通过对四种网络拓扑结构上的仿真实验,我们详细量化了SARSA算法对网络合作水平的影响。具体来说,引入SARSA算法后,网络合作水平平均提高了35%,并且这种提升效果在不同的网络拓扑结构中表现出一致性。例如,在无标度网络中,合作水平从引入算法前的45%提升至引入算法后的80%,稳定维持的区间范围为75%至85%。这表明SARSA算法不仅能显著提升网络中个体的合作水平,而且可以保持较高的合作稳定性。本研究的结果显示,SARSA算法在促进网络中个体合作行为的产生和维持方面具有显著优势。特别是,在低学习率与高折扣率的环境下,使用了ε-greedy决策机制算法的合作水平提高约40%和50%,以及在适当调节个体收益的条件下,合作行为的提升和稳定性更为显著。此外,我们还发现,在高探索率的情况下,考虑个体全局属性的Max−plus决策机制下的个体平均收益较其他两种决策机制提高约20%,能够更有效地引导个体做出适应性的合作策略,从而获得更高的平均收益。本文的主要创新点包括:1) 提出了一种基于SARSA算法的演化博弈模型,首次将其应用于网络博弈的研究中;2) 通过在四种网络拓扑结构上的仿真实验,验证了SARSA算法在不同网络环境下提升和维持合作水平的效果;3) 探讨了算法不同参数设置对合作水平的影响,为后续研究提供了理论基础和实证数据。这些创新和发现不仅为理解网络中的合作行为提供了新的理论视角,也为设计有效的促进网络合作的策略提供了有价值的参考。