A Method for Identifying Key Nodes Based on Gravity Model in Complex Networks
The key node identification method based on gravity model is a common type of identification method, but this type of method has the following two shortcomings: the first is the single factor considered when measuring “mass” of the node; the second is the high cost of required running time. Therefore, this paper proposes an improved gravity model identification method by optimizing these two shortcomings. Initially, “mass” of the node is measured by comprehensively considering the degree, the H-index centrality and the clustering coefficient, and the information entropy is used to distinguish “mass” of the node. Then, the influence range of the node is being reconsidered to reduce the runtime cost of the proposed method. Finally, the method proposed in this paper is compared with six benchmark methods on eight datasets. Experimental results show that the proposed method has obvious advantages in monotonicity, robustness and accuracy. The running time of the proposed method in this paper can be reduced by 18.97% - 87.65% compared with the identification method based on the gravity model.
Complex Network
一般而言,现实生活中的许多实体都可以抽象为复杂网络,即把每一个实体抽象为一个节点,把实体与实体之间的联系抽象为边
到目前为止,许多经典的关键节点识别方法已经被提出,例如基于节点局部信息的度中心性
受万有引力定律的启发,Ma等人
基于上述分析,为解决基于引力模型的关键节点识别方法存在的两方面不足,即一是衡量节点“质量”时考虑的因素单一,二是所需的运行时间代价较高,本文提出了一种改进的引力模型方法。该方法同时考虑了节点的度、H指数中心性和聚类系数,并重新考虑了节点的影响范围。为评估所提方法的性能,本文在八个数据集中进行仿真实验。实验结果表明,与现有的六种关键节点识别方法相比,本文提出的方法具有良好的单调性、鲁棒性以及准确性。并且与需要计算节点对间最短路径长度的引力模型识别方法相比,本文方法的运行时间代价显著降低。
接近中心性
(1)
其中 表示节点 和 之间的最短路径长度。
H指数中心性
K-Shell分解
引力中心性方法
(2)
其中 表示节点 的K-Shell值。
拉普拉斯引力中心性
,(3)
,(4)
其中,R为网络平均最短路径长度 的一半,即 , 表示节点 的拉普拉斯中心性值, 表示节点 的1阶邻居。
拉普拉斯能量中心性
(5)
其中 表示以节点 为顶点形成的三角形个数。
信息熵是信息论中广泛应用的基本概念之一,可用于度量信息的信息量。对于任意的离散随机变量 ,其概率分布为 ,则随机变量X的信息熵可以通过以下公式计算,即
(6)
其中,信息熵的值越大,表示其拥有的信息量越多。近年来,信息熵作为有效的信息量度量指标,不断被推广应用于复杂网络中关键节点识别问题的研究中
由于前人提出或改进的引力模型识别方法在衡量节点“质量”时考虑的因素比较单一,因此,本文通过考虑节点的度、H指数中心性和聚类系数以改善这一问题。同时,本文重新考虑节点的影响范围,即只考虑节点2阶内的邻居节点。通过综合考虑多种因素及节点的影响范围,本文提出一种改进的引力模型关键节点识别方法(Improved Gravity Model,简称IGM)。
节点的度仅考虑了节点的1阶邻居个数,而H指数中心性忽略了节点自身的度,即对于一些节点自身度较大而1阶邻居节点度较小的节点,会造成识别结果不准确的问题。此外,无论是在计算节点度还是H指数中心性的过程中,都只考虑了邻居节点的个数而没有考虑邻居节点之间的连接情况。与此相反,聚类系数可以很好的衡量节点的邻居节点之间的连接情况。但近些年的研究结果表明,高聚类系数值的节点在信息传播过程中会造成信息的重复传播,从而影响信息传播的速度。因此,本文将通过综合考虑节点的度、H指数中心性以及聚类系数,对引力模型中衡量节点“质量”时考虑的因素单一这一问题进行改进,改进后节点 的“质量”表示为
(7)
其中, , , 。为进一步区分不同节点的“质量”,利用信息熵对求得的值再次进行区分。基于此,节点 的“质量”进一步表示为
(8)
其中, , 。
在利用引力模型求节点的影响力值时,如何衡量节点的影响范围一直是一个难题,大部分学者将节点的影响范围定义为网络平均最短路径长度的一半。然而,计算一个网络的平均最短路径长度所需的运行时间代价是较高的。通过对近些年关键节点识别的相关论文进行阅读,发现许多学者在考虑节点的影响范围时,通常考虑的是节点2阶内的邻居节点。因此,本文在考虑节点的影响范围时,只考虑节点2阶内的邻居节点。最终,节点 的影响力值表示为
(9)
这一部分将介绍本文使用的八个数据集以及三个评估指标。其中,本文所有的实验,均是在
参数项 | 参数值 |
操作系统 | Windows 10 |
运行内存 | 16.0 GB |
中央处理器 | Intel(R) Core(TM) i5-1135G7 |
编程语言 | Python 3.11 |
数据集 | n | m | ||
Adjnoun | 112 | 425 | 2.5356 | 0.1728 |
Enron | 143 | 623 | 2.9670 | 0.4339 |
Netscience | 379 | 914 | 6.0419 | 0.7412 |
Celegans | 453 | 2025 | 2.6638 | 0.6465 |
Crime | 829 | 1473 | 5.0400 | 0.0058 |
1133 | 5451 | 3.6060 | 0.2202 | |
Air | 1226 | 2408 | 5.9290 | 0.0675 |
Health | 2539 | 10455 | 4.5594 | 0.1467 |
这一部分将介绍三个评估指标,分别是基于单调性的评估指标、基于网络连通性的评估指标以及基于传染病模型的评估指标。
单调性函数
(10)
其中,R是根据节点的影响力值从大到小将节点进行排序的排序等级列表, 表示在排名等级r上的节点数,M的取值范围是[0, 1]。当M值为0时,表明所有节点的影响力值是相同的,即所有节点的排序等级都是相同的;当M值为1时,表明所有节点的影响力值都是不同的,即所有节点的排序等级都是不同的。M值越接近于1,表明对应方法的节点区分能力越强。
按照排序等级列表R依次移除一定的比例节点后,网络连通子图的数量和最大连通子图的规模可以用于衡量节点识别方法的鲁棒性
(11)
其中, 表示最大连通子图包含的节点总数, 表示对应连通子图包含的节点总数。当 的值越大, 的值越小时,表明对应识别方法的鲁棒性越强。
识别方法的准确性可以用SI模型
本文的实验结果分析主要包括四个部分,分别是单调性分析、鲁棒性分析、准确性分析以及运行时间分析,接下来将依次对这四个部分进行详细的分析。
数据集 | M(CC) | M(KS) | M(HC) | M(GC) | M(LGC) | M(LEC) | M(IGM) |
Adjnoun | 0.9837 | 0.5990 | 0.8110 | 0.9990 | 0.9997 | 0.9994 | 0.9997 |
Enron | 0.9872 | 0.7245 | 0.8331 | 0.9998 | 0.9998 | 0.9986 | 0.9998 |
Netscience | 0.9928 | 0.6421 | 0.6825 | 0.9946 | 0.9950 | 0.9972 | 0.9950 |
Celegans | 0.9900 | 0.6962 | 0.7331 | 0.9967 | 0.9983 | 0.9971 | 0.9986 |
Crime | 0.9982 | 0.4327 | 0.5651 | 0.9990 | 0.9986 | 0.9836 | 0.9994 |
0.9988 | 0.8088 | 0.8583 | 0.9999 | 0.9999 | 0.9986 | 0.9999 | |
Air | 0.9992 | 0.3772 | 0.4916 | 0.9992 | 0.9997 | 0.9912 | 0.9997 |
Health | 0.9994 | 0.5245 | 0.7986 | 0.9999 | 0.9999 | 0.9994 | 0.9999 |
在本实验中,选取每种方法影响力值最大的前20个节点为最初的感染节点,将每种方法独立运行100次后,取每一步的平均值并标记为
,该平均值即为每一步最终的感染节点数。
在本实验中,将每种方法独立运行100次后,取其运行时间的平均值作为每种方法的最终运行时间。
数据集 | CC | KS | HC | GC | LGC | LEC | IGM |
Adjnoun | 0.0286 | 0.0033 | 0.0041 | 0.0324 | 0.0341 | 0.0086 | 0.0203 |
Enron | 0.0453 | 0.0057 | 0.0054 | 0.0453 | 0.0520 | 0.0120 | 0.0248 |
Netscience | 0.1633 | 0.0216 | 0.0233 | 0.0987 | 0.2490 | 0.0315 | 0.0706 |
Celegans | 0.4041 | 0.0108 | 0.0131 | 0.5080 | 0.6250 | 0.0422 | 0.2157 |
Crime | 1.0309 | 0.0155 | 0.0165 | 0.4633 | 1.5494 | 0.0363 | 0.2169 |
2.4928 | 0.0280 | 0.0337 | 1.9417 | 3.4798 | 0.0848 | 0.5733 | |
Air | 2.5880 | 0.0215 | 0.0250 | 0.6702 | 3.2100 | 0.0539 | 0.4368 |
Health | 11.0311 | 0.0598 | 0.0722 | 3.5867 | 15.8230 | 0.1564 | 1.9547 |
本文通过利用度、H指数中心性和聚类系数衡量节点的“质量”,并利用信息熵对其进行区分,同时将节点的影响范围限制为其2阶内邻居节点,提出了改进的引力模型识别方法IGM。在八个数据集上的实验结果表明,IGM方法在单调性、鲁棒性以及准确性方面的性能是更优的。尽管本文提出的方法在运行时间上略高于KS、HC和LEC方法,但KS和HC方法通常会将相同的影响力值分配给多个节点,从而不能有效区分节点。但比起需要计算最短路径长度的CC和LGC方法,IGM方法的运行时间是更短的,尤其是在数据规模比较大的网络中。此外,在衡量节点“质量”时,IGM方法考虑了三种因素,未来的研究将扩展到考虑节点更多的因素,以确保其影响力得到更加合适的衡量。
国家自然科学基金资助项目(61966039)。
*通讯作者。