Key Node Identification Algorithm Based on Neighborhood Centrality and Gravity Model
Identifying key nodes in complex networks has strong theoretical significance and practical value in promoting information dissemination, blocking rumor spread, managing transportation, and preventing catastrophic damage to the power grid. Based on the analysis and research of existing key node recognition algorithms, inspired by the K-shell decomposition method and gravity model, this article proposes an improved algorithm NCGM based on neighborhood centrality and gravity model. The NCGM algorithm not only considers the degree of connection between nodes and nodes at the core position, but also takes into account the shortest path distance between nodes and other nodes. To evaluate the proposed NCGM algorithm, this article conducted experimental simulations using the Susceptible-Infected-Recovered (SIR) propagation dynamics model on seven commonly used datasets, and compared and analyzed the propagation range and Knedall’s tau correlation coefficient of the proposed NCGM algorithm with five existing algorithms. The experimental results show that the proposed NCGM algorithm can more accurately identify key nodes in different types of networks.
Complex Networks
识别复杂网络中的关键节点是网络科学的重要研究课题,这些节点不仅连接着网络中的各个部分,更是信息传播、资源调控和系统应对能力的关键枢纽。例如,这些关键节点可以抑制疫情的扩散
近年来,研究人员对识别复杂网络中的关键节点展开了广泛研究
K-shell分解方法通过区分节点所处的位置来识别关键节点,但会将许多不同的节点分配相同的值,这样则无法区分处于同一层的不同节点,难以有效衡量节点的重要性。但由于它是一种适用于大规模网络的快速节点排序方法,因此,近年来,研究人员基于K-shell分解方法提出了大量的改进算法。例如,
1) 度中心性DC
其中,d表示节点的度,n表示网络中节点的总数。
2) 重力指数中心性算法GIC
(2)
其中,GIC(i)表示节点i的影响力值, 为节点i的邻居集合,ks(i)和ks(j)代表节点i和j的K-shell值,dij表示节点i和节点j之间的最短路径长度。
3) 局部邻居贡献LNC
4) 局部和全局中心性LGC
(3)
其中,d(vi)和d(vj)和分别代表节点vi和vj的度,dij表示节点vi和节点vj之间的最短路径长度,α为网络中的可调参数,用于控制节点度对网络的影响,其取值范围在0到1之间。
5) 基于局部的结构系统LSS,
给定无向无权网络 ,V表示网络G的节点集合,E表示网络G的边集,且 表示网络G中节点的数量, 表示网络G中边的数量。
节点的邻域中心性NC指的是节点的邻居节点的K-shell值之和。K-shell值是描述节点在网络中所处位置的度量,具有较大K-shell值的节点处于网络中的核心位置,具有较强的影响力。考虑节点的一阶邻居节点的K-shell值之和,既考虑了节点的邻居节点数量,又考虑了节点与处于网络中核心位置的节点的连接程度。因此,具有较高邻域中心性值的节点具有更多的邻居节点,也说明其与网络中处于核心位置的节点连接紧密。节点邻域中心性的具体计算公式如下:
(4)
其中,ks表示节点的K-shell值,vj表示网络中节点vi的邻居节点。
基于对上述问题的考虑,受重力模型的启发,本文将节点的邻域中心性作为质量,将节点之间的最短路径长度作为距离。因此,节点的影响力值定义如下:
(5)
其中,dij表示节点vi和节点vj之间的最短路径长度,且vj是网络中除了vi之外的所有节点。
节点与其他节点的距离越短,说明节点能够更快地进行传播。节点具有较多的邻居且与处于网络中核心位置的节点连接越紧密,则节点能够进行更广泛的传播。显然,根据NCGM的计算等式可知,具有邻居数量较多且与网络中处于核心位置的节点连接越紧密,同时靠近大多数节点的NCGM值越大,节点能够更快、更广泛地进行传播,节点更具影响力。因此,所提出的NCGM算法在理论上是有效的。
为了评估所提出的NCGM算法的有效性,本文使用了7个无向无权的真实网络进行实验。这些网络包括:
Jazz:爵士音乐家的合作网络;
Email:西班牙一所大学的电子邮件交流关系;
Facebook:来自Facebook的社交圈,其中节点代表用户,边代表用户之间有联系;
GrQc:物理学领域中量子物理和相对论物理方面的研究合作网络;
Router:描述的是互联网路由器之间的连接关系;
PG:从2002年8月开始的Gnutella对等文件共享网络快照中提取出来的,其中节点代表网络拓扑中的主机,边代表主机之间的连接关系;
Sex:双向网络,其中节点表示女性和男性,边代表他们之间的好友关系。
这些网络的详细信息如
Network | N | E | C | ||
Jazz | 198 | 2472 | 27.697 | 2.235 | 0.633 |
1133 | 5451 | 9.622 | 3.606 | 0.254 | |
4039 | 88,234 | 43.691 | 3.693 | 0.617 | |
GrQc | 4158 | 13,422 | 6.456 | 6.049 | 0.665 |
Router | 5022 | 6258 | 2.492 | 6.449 | 0.033 |
PG | 6299 | 20,776 | 6.597 | 4.643 | 0.015 |
Sex | 15,810 | 38,540 | 4.875 | 5.785 | 0 |
本文使用易感–感染–恢复(SIR)传播模型进行实验仿真。在SIR模型中,个体被划分为三类:易感者S、感染者I和康复者R。其中,S指的是处于易感染状态且可能感染疾病的个体,I指的是处于感染疾病状态且能够传播疾病的个体,R指的是已经从感染状态恢复并对疾病具有免疫力的个体。初始时网络中存在少量感染个体I和大量易感个体S,感染个体I通过一定的概率β感染与其相连的易感个体S,同时感染个体I以一定的概率μ恢复健康。在SIR传播模型中,网络中节点的最终传播范围的计算公式如下所示:
(6)
其中,n表示网络的总节点数,nI表示感染节点的数量,nR表示康复节点的数量。
肯德尔相关系数
(7)
其中,n表示序列中节点的总数量, 和 分别表示一致对和不一致对的数量。一般来说,相关系数的取值范围在−1到1之间, 表示正相关,而 表示负相关。肯德尔相关系数的值越大,意味着两个排名序列之间的相关性越大,算法生成的排序结果越准确。
在实验中将传染病模型中的感染概率β设置为β = 0.1,将恢复概率μ设置为μ = 1。同时,使用所提出的NCGM算法和不同的对比算法计算每个网络中每个节点的影响力值,并对其进行降序排序,选择NCGM和对比算法所选出的前10个节点作为初始感染源。一般来说,一个更具有影响力的节点的传播范围更广泛,会感染更多的节点。
Network | DC | GIC | LNC | LGC | LSS | NCGM |
Jazz | 0.005 | 0.013 | 0.021 | 0.009 | 0.012 | 0.027 |
0.333 | 0.344 | 0.367 | 0.342 | 0.368 | 0.373 | |
0.330 | 0.378 | 0.406 | 0.375 | 0.287 | 0.413 | |
GrQc | 0.184 | 0.261 | 0.282 | 0.254 | 0.313 | 0.328 |
Router | 0.085 | 0.275 | 0.260 | 0.274 | 0.261 | 0.296 |
PG | 0.407 | 0.472 | 0.496 | 0.465 | 0.493 | 0.506 |
Sex | 0.175 | 0.325 | 0.435 | 0.320 | 0.391 | 0.453 |
本文受重力模型的启发,提出了一种新的关键节点识别算法NCGM。NCGM算法将节点的邻域中心性作为重力模型中的质量,将节点之间的最短路径距离作为重力模型中的距离,不仅考虑了节点与处于核心位置的节点的连接程度,还考虑了节点与其他节点的最短路径长度。本文在7个常用数据集上对所提出的NCGM算法进行了实验仿真。实验结果表明,NCGM算法在不同类型的网络数据集上都表现出了最优的结果,说明其能够有效识别网络中的关键节点。但NCGM算法仅适用于无向无权网络,为了使算法更具广泛性和现实性,我们将进一步考虑将其改进适用于带权无向网络和带权有向网络。