Identifying Vital Nodes Based on Epidemic Spreading Probability Entropy
This study introduces a novel method known as ESPE (Epidemic Spreading Probability Entropy), designed to more effectively evaluate the importance of nodes within complex networks. The method addresses the oversight in previous research, which neglected the influence of neighboring nodes, by incorporating information entropy to simultaneously consider a node’s own spreading influence and the spreading impact of its neighbors. To validate the performance of the ESPE algorithm, Kendall’s tau rank correlation coefficient was employed to measure its accuracy in identifying the spreading capabilities of nodes. The superiority of ESPE in identifying key nodes was demonstrated through comparison with the SIR (Susceptible-Infected-Recovered) spreading model. Experimental results indicate that the ESPE algorithm achieved an average improvement rate of 8.46% across six real-world networks, with its Kendall correlation coefficients generally exceeding those of existing methods. Furthermore, in the analysis of the correlation between the normalized spreading influence scores obtained by the ESPE and SPC algorithms, ESPE demonstrated greater accuracy and discriminative power compared to SPC. Overall, the ESPE algorithm provides an accurate and reliable tool for complex network analysis, capable of more effectively identifying and assessing key nodes within the network.
Complex Networks
网络中的关键节点在传播现象的研究中扮演着至关重要的角色
目前,评估网络中节点影响力的方法众多,包括但不限于中心性指标,例如,度中心性衡量一个节点的连接数
除此之外,还有基于传播动力学模型的方法,例如,Qu等
在研究复杂网络时,通常采用图论的方法来构建模型。具体来说,一个网络可以通过一个图G来表示,该图由两部分组成:节点集V和边集E。在这个模型中,V包含了网络中的所有节点,记为 ,而E则包含了网络中所有的连接,记为 。为了便于分析,网络的连接关系可以通过一个邻接矩阵 来表示。在这个矩阵中,如果 的值为1,则表示节点 与节点 之间存在直接的连接;如果 的值为0,则表示这两个节点之间没有直接的连接。本研究中,我们假设所有考虑的网络都是无向的,即边是双向的,没有指定的方向。
度中心性
(1)
其中k(i)表示节点i的度,N是网络中节点的总数。
介数中心性
(2)
其中 表示节点v和节点u之间的最短路径数, 表示通过节点i的节点v和节点u之间的最短路径数。
k-核值
SPC算法
(3)
其中, 表示节点i的三阶邻居节点集合, 表示节点i和节点j之间的最短路径长度, 是一个可调参数,代表信息从节点i到节点j的传播概率。
在网络科学和复杂系统的研究中,用户影响通常被定义为一个用户促使其他用户采取特定行为的能力。在本文中,我们依据易感者–感染者(SI)模型,将一个节点作为感染源并衡量其感染网络中其他未感染节点的能力,以此作为该节点影响力的量化指标。具体而言,节点的传播能力可以通过计算该节点感染未感染邻居节点的概率来确定。然而,一个节点的影响力并非仅由其自身的属性决定,还受到其邻居节点影响力的影响。因此,一个节点的总体影响力应该是由其自身的影响力和其邻居节点影响力的综合效应所共同决定的。为了准确评估这种复合影响力,本文通过结合信息熵,同时考虑节点自身的传播影响力及其邻居节点的传播影响,提出了一种传播概率熵(Epidemic Spreading Probability Entrop, ESPE)的模型,该模型不仅考虑了节点的直接传播能力,还考虑了其邻居节点的传播潜力。
ESPE模型的实施步骤可以概括如下:
1) 节点状态初始化:首先,需要确定网络中每个节点的当前状态,这可以是易感者、感染者或传播者。
2) 识别三阶邻居节点集:对于目标节点i,识别其所有直接相连的邻居节点,即三阶邻居节点集合 。
3) 计算单个节点的传播概率:对于目标节点i的每一个三阶邻居节点j,计算节点i传播给节点j的概率 。这通常基于节点之间的连接强度和网络的拓扑结构。
(4)
其中, 是传播概率的衰减因子, 是节点i到其三阶邻居j之间的距离。
4) 计算节点的总传播概率:累加节点i的所有一阶邻居节点的SP值,得到 :
(5)
5) 确定信息传播的概率分布:使用 和 来确定信息从节点i传播到其每一个一阶邻居节点j的概率 :
(6)
6) 计算传播影响概率熵:最后,计算目标节点i的传播影响概率熵 ,这反映了节点i对其邻居节点影响力的不确定性或信息的混乱程度:
(7)
SIR模型
为了评估节点的感染能力,我们首先将特定节点设定为初始感染状态,而其他所有节点设为易感状态。通过模拟网络达到稳定状态的过程,我们可以统计出在最终状态下的感染节点数和恢复节点数。节点的感染能力,即其标签,可以通过1000次独立实验的平均结果来确定,以提高评估的准确性并减少随机波动的影响。感染能力的计算公式为:
(8)
其中, 表示节点x的感染能力, 和 表示在第j个实验中感染节点和恢复节点的数量。
此外,为了量化网络中感染传播的难易程度,我们引入了感染传播阈值 ,该阈值可以通过平均场理论来估算。具体计算公式如下:
(9)
其中,k表示节点的度, 表示计算平均值。
通过这种方法,SIR模型不仅能够模拟传染病的传播过程,还可以用于评估个体节点在网络中的感染能力,以及整个网络对疾病传播的抵抗性。这些信息对于设计有效的疾病控制策略和提高网络的鲁棒性具有重要意义。
Network |
n |
m |
|
|
c |
|
|
d |
|
LastFM |
7624 |
27806 |
7.294 |
216 |
0.219 |
100.000 |
100.000 |
0.001 |
0.041 |
Jazz |
198 |
2742 |
27.697 |
100 |
0.617 |
100.000 |
100.000 |
0.141 |
0.027 |
1133 |
5451 |
9.622 |
71 |
0.220 |
100.000 |
100.000 |
0.009 |
0.057 |
|
Faa |
1226 |
2410 |
3.931 |
34 |
0.068 |
100.000 |
100.000 |
0.003 |
0.157 |
4039 |
88234 |
43.691 |
1045 |
0.606 |
100.000 |
100.000 |
0.011 |
0.009 |
|
Vote |
889 |
2914 |
6.556 |
102 |
0.153 |
100.000 |
100.000 |
0.007 |
0.058 |
其中n和m分别是网络中的节点总数和边总数, 是网络的平均度, 是网络的最大度,c是网络的平均聚类系数, 和 分别表示网络中最大组件中节点和边占总节点数和总边数的比例,d是网络的密度, 是网络的传播阈值。若网络的 且 ,则它是一个连通网络,否则它是一个非连通网络。
在本文中,我们采用了肯德尔相关系数(Kendall’s tau coefficient)
(10)
在这个公式中, 是排名列表中的节点数量, 和 分别是一致对和不一致对的数量。具体来说,对于两个数据对 和 ,如果 且 ,或 且 ,则这一对数据 和 是一致的。如果 且 ,或 且 ,则这一对数据 和 是不一致的。如果 , ,这对既不是一致的也不是不一致的。
肯德尔相关系数的取值范围从−1到1。当 的值越接近1,表明两个排名列表的一致性越高。如果 ,则表示两个排名完全一致。当 ,表明排名列表之间没有显著的相关性。而当 ,则意味着两个排名列表完全相反。
在本文的第3.3.1节中,我们将利用 来评估由SIR模型产生的排名与通过ESPE模型以及其他方法得到的排名之间的关联性。通过这种方法,我们可以定量地分析不同排名方法之间的一致性和差异性,为进一步的研究提供依据。
该性能指标旨在衡量所提出方法相较于其他现有方法在识别性能上的提升幅度。改进率是基于所提方法的识别准确率与对比方法的识别准确率之间的差异百分比来计算的。具体来说,这个指标反映了所提方法在识别准确率上相对于其他方法的增长或减少的幅度。当这个百分比值为正时,意味着所提方法在性能上优于对比方法;若为负,则意味着性能有所下降。此指标是评估新方法在竞争性方法面前性能优势的重要工具。
(11)
其中, 表示所提出方法的肯德尔相关性系数,而 表示SPC算法的肯德尔相关性系数。通过这个公式,我们可以定量地评估所提出方法在识别任务上相对于SPC算法的改进情况,进而为选择更合适的方法提供决策依据。
从
综上所述,ESPE 算法在多个真实网络结构上的表现均优于SPC算法,尤其在Facebook网络中的改进表现尤为突出。这证明了ESPE算法在网络分析中的潜力和实用性,尤其是在需要高精度识别网络关键节点的应用场景中。
LastFM |
|||||||||||
SIR |
ESPE |
SPC |
DC |
KS |
BC |
SIR |
ESPE |
SPC |
DC |
KS |
BC |
7237 |
7237 |
7237 |
7237 |
6105 |
7199 |
105 |
105 |
105 |
105 |
299 |
333 |
3240 |
3530 |
3530 |
3530 |
7237 |
7237 |
42 |
42 |
333 |
333 |
389 |
105 |
续表
378 |
3450 |
3450 |
4785 |
1334 |
2854 |
333 |
333 |
23 |
16 |
434 |
23 |
763 |
3597 |
2854 |
524 |
951 |
4356 |
16 |
23 |
42 |
23 |
552 |
578 |
3597 |
3240 |
7199 |
3450 |
3165 |
6101 |
3 |
41 |
41 |
42 |
571 |
76 |
3544 |
4900 |
5127 |
2510 |
3544 |
5454 |
23 |
16 |
76 |
41 |
726 |
233 |
4900 |
3544 |
6101 |
3597 |
4900 |
4338 |
196 |
3 |
233 |
196 |
756 |
135 |
2083 |
763 |
3544 |
2854 |
7075 |
5127 |
41 |
196 |
52 |
233 |
788 |
41 |
1334 |
5127 |
4900 |
6101 |
5854 |
3450 |
128 |
21 |
135 |
21 |
885 |
355 |
2734 |
290 |
4785 |
5127 |
1381 |
4785 |
49 |
233 |
378 |
76 |
886 |
42 |
Jazz |
|||||||||||
SIR |
ESPE |
SPC |
DC |
KS |
BC |
SIR |
ESPE |
SPC |
DC |
KS |
BC |
1912 |
107 |
107 |
107 |
1912 |
107 |
60 |
136 |
136 |
136 |
35 |
136 |
2347 |
1684 |
1684 |
1684 |
2543 |
1684 |
136 |
60 |
60 |
60 |
60 |
153 |
2543 |
1912 |
1912 |
1912 |
2266 |
3437 |
132 |
132 |
168 |
132 |
98 |
60 |
2073 |
1888 |
0 |
3437 |
2347 |
1912 |
168 |
168 |
132 |
168 |
99 |
149 |
2206 |
1800 |
3437 |
0 |
2542 |
1085 |
108 |
70 |
70 |
70 |
100 |
168 |
2507 |
1663 |
58 |
2543 |
2468 |
0 |
70 |
108 |
83 |
99 |
101 |
167 |
1943 |
1352 |
428 |
2347 |
1917 |
698 |
99 |
83 |
99 |
108 |
108 |
189 |
2266 |
1730 |
563 |
1888 |
1918 |
567 |
122 |
99 |
158 |
83 |
131 |
115 |
2233 |
1431 |
1577 |
1800 |
1929 |
58 |
7 |
194 |
108 |
158 |
132 |
96 |
2410 |
2543 |
483 |
1663 |
1938 |
428 |
194 |
131 |
194 |
7 |
154 |
83 |
Vote |
Faa |
||||||||||
SIR |
ESPE |
SPC |
DC |
KS |
BC |
SIR |
ESPE |
SPC |
DC |
KS |
BC |
273 |
431 |
273 |
431 |
447 |
273 |
47 |
52 |
68 |
312 |
1 |
68 |
431 |
273 |
431 |
273 |
273 |
431 |
68 |
68 |
52 |
52 |
2 |
52 |
204 |
204 |
204 |
170 |
536 |
170 |
52 |
113 |
148 |
68 |
3 |
213 |
399 |
536 |
536 |
536 |
482 |
204 |
116 |
47 |
44 |
89 |
4 |
312 |
536 |
399 |
170 |
399 |
204 |
736 |
46 |
44 |
113 |
113 |
6 |
135 |
416 |
416 |
399 |
204 |
431 |
550 |
109 |
116 |
47 |
187 |
10 |
136 |
448 |
550 |
550 |
550 |
562 |
21 |
113 |
34 |
135 |
47 |
14 |
212 |
504 |
170 |
416 |
416 |
132 |
230 |
148 |
148 |
312 |
44 |
16 |
660 |
550 |
448 |
736 |
736 |
392 |
22 |
124 |
109 |
89 |
109 |
18 |
523 |
132 |
736 |
448 |
762 |
399 |
536 |
44 |
110 |
110 |
135 |
20 |
221 |
为了更清楚地验证算法在识别网络中关键节点传播能力方面的性能,本研究通过
综合考虑,与其它基线方法相比,ESPE算法在识别网络中最关键的前10个节点方面整体表现更为优秀。这一结果表明ESPE算法在捕捉网络中节点的重要性和传播影响力方面具有较高的准确性和可靠性,尤其是在Email网络、Jazz网络、Vote网络和Faa网络中,ESPE算法展现出了其在识别头部节点方面的显著优势。
为了评估ESPE算法与SPC算法在区分网络节点传播影响力上的能力,
这一发现强调了ESPE算法在识别网络中具有显著传播能力节点方面的优越性,尤其是在区分节点传播影响力的细微差别时。ESPE算法通过更精确地量化节点的传播潜力,为网络分析提供了一种改进的方法,这在复杂网络的结构和行为分析中具有重要的应用价值。
本文提出了一种新颖的评估复杂网络中节点重要性的方法,即传播概率熵(ESPE)。与之前的SPC算法相比,ESPE方法在评估节点传播影响力时,不仅考虑了节点自身的传播潜力,还综合了其邻居节点的传播影响,通过信息熵的概念提供了一种更全面的分析框架。为了验证ESPE方法的有效性,本研究采用了肯德尔相关系数来衡量算法的准确性。模拟实验的结果表明,ESPE算法在识别节点传播能力方面得到的肯德尔相关系数普遍高于其他现有方法。特别是在确定网络中最重要的前10个节点时,ESPE算法与SIR传播模型的一致性更高,六个不同网络中的平均改进率达到了8.46%,这进一步证实了ESPE方法的优越性。
此外,通过对比ESPE算法和SPC算法得到的归一化传播影响得分的相关性分析,ESPE算法展现了更高的准确性和区分度。这一发现表明,ESPE算法在识别网络中具有显著传播影响力的节点方面,能够提供更为精确的评估。综上所述,ESPE算法在复杂网络节点重要性评估领域提供了一种新的有效工具。它不仅提高了关键节点识别的准确性,还增强了对这些节点的区分能力,这对于网络分析和相关领域的研究具有重要的理论和实践意义。
尽管ESPE算法在本研究中表现出了显著的优势,未来的工作仍需在更广泛的网络类型和更复杂的传播场景中进一步验证其性能。此外,算法的计算效率和可扩展性也是未来研究的重要方向。我们期待ESPE算法能够在网络科学、信息传播、疾病控制等领域发挥更大的作用,并为相关领域的研究者提供强有力的分析工具。