舆情热度分析是突发事件舆情治理的重要环节,国内有很少学者有从时空视角下进行分析的。基于此,文章的网络舆情热度测量指标数据来源于百度搜索指数,选取的突发事件是新型冠状病毒感染肺炎,运用全局空间自相关分析、局部空间自相关分析和灰色关联分析等方法,分析2020-01-09~02-19中国网民对“新型冠状病毒”网络舆情热度的省域时空差异研究与影响机理研究。研究发现:全国各省网民对疫情随时间变化的网络舆情热度趋势趋于一致,广东省和山东省由于人口基数大,舆情热度排名靠前,随着封城和居家隔离政策实施,疫情的发展得到控制,疫情的舆情热度呈下降趋势;突发疫情的网络舆情热度整体上存在空间分异特征非常显著,舆情热度高低以人口密度线即胡焕庸线为界的空间分布格局,舆情热度高的主要分布在分界线以东的地区,舆情热度低的主要分布在分界线以西的地区;确诊人数、治愈人数、城市化率、互联网普及率等都与舆情热度相关,并且确诊人数是影响舆情热度的核心因素。 As an important part of public opinion management of emergencies, the temporal and spatial dif-ferences and influencing factors of public attention are rarely discussed. Therefore, based on re-al-time data of Baidu index, this paper uses real-time epidemic monitoring data and spatial analysis, spatial-temporal visualization, GRA and other methods. Analyzing China’s Provincial Spatial and temporal differences in the popularity of New Coronavirus Internet public opinion and its influenc-ing mechanism from January 9th to February 19th, 2020. The results show that: The trend of In-ternet users’ popularity of the epidemic over time tends to be consistent across the country. Due to the large population base, Guangdong Province and Shandong Province rank high in public opinion popularity. With the implementation of the city closure and home isolation policies, the develop-ment of the epidemic has been controlled, and the popularity of the epidemic decline. Overall, the novel coronavirus pneumonia epidemic network public opinion fever has significant spatial differ-entiation characteristics. The cold hot spot is obviously spatial distribution pattern with “Hu Huan-yong” line as the boundary. The hot spots are mostly located in the east of the line, and the cold spots are located in the west of the line. The number of confirmed cases, cured cases, urbanization rate and Internet penetration rate are all related to the popularity of public opinion, and the num-ber of confirmed cases is the core factor affecting the popularity of public opinion.
舆情热度分析是突发事件舆情治理的重要环节,国内有很少学者有从时空视角下进行分析的。基于此,文章的网络舆情热度测量指标数据来源于百度搜索指数,选取的突发事件是新型冠状病毒感染肺炎,运用全局空间自相关分析、局部空间自相关分析和灰色关联分析等方法,分析2020-01-09~02-19中国网民对“新型冠状病毒”网络舆情热度的省域时空差异研究与影响机理研究。研究发现:全国各省网民对疫情随时间变化的网络舆情热度趋势趋于一致,广东省和山东省由于人口基数大,舆情热度排名靠前,随着封城和居家隔离政策实施,疫情的发展得到控制,疫情的舆情热度呈下降趋势;突发疫情的网络舆情热度整体上存在空间分异特征非常显著,舆情热度高低以人口密度线即胡焕庸线为界的空间分布格局,舆情热度高的主要分布在分界线以东的地区,舆情热度低的主要分布在分界线以西的地区;确诊人数、治愈人数、城市化率、互联网普及率等都与舆情热度相关,并且确诊人数是影响舆情热度的核心因素。
突发事件,舆情热度,时间序列,空间自相关
Lumeng Xu
Shanghai University of Engineering Science, Shanghai
Received: Apr. 25th, 2022; accepted: May 19th, 2022; published: May 30th, 2022
As an important part of public opinion management of emergencies, the temporal and spatial differences and influencing factors of public attention are rarely discussed. Therefore, based on real-time data of Baidu index, this paper uses real-time epidemic monitoring data and spatial analysis, spatial-temporal visualization, GRA and other methods. Analyzing China’s Provincial Spatial and temporal differences in the popularity of New Coronavirus Internet public opinion and its influencing mechanism from January 9th to February 19th, 2020. The results show that: The trend of Internet users’ popularity of the epidemic over time tends to be consistent across the country. Due to the large population base, Guangdong Province and Shandong Province rank high in public opinion popularity. With the implementation of the city closure and home isolation policies, the development of the epidemic has been controlled, and the popularity of the epidemic decline. Overall, the novel coronavirus pneumonia epidemic network public opinion fever has significant spatial differentiation characteristics. The cold hot spot is obviously spatial distribution pattern with “Hu Huanyong” line as the boundary. The hot spots are mostly located in the east of the line, and the cold spots are located in the west of the line. The number of confirmed cases, cured cases, urbanization rate and Internet penetration rate are all related to the popularity of public opinion, and the number of confirmed cases is the core factor affecting the popularity of public opinion.
Keywords:Emergencies, Public Opinion Popularity, Time Series, Spatial Autocorrelation
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
近年来,突发事件频发,对突发事件提前预警及时出动减少其影响和安抚民心对于政府的治理能力是一种考验。新冠肺炎在全球范围传播,我国快速响应,积极地采取措施防治疫情的蔓延,在非常短的时间内就控制了疫情的传播 [
自从新冠肺炎爆发以来,与疫情相关的确诊人数和新增病例数的新闻报道引起了公众的普遍关注。公众对突发事件或者自然灾害是否关注、关注程度如何以及公众对于突发事件过于关注导致舆情恶化等问题值得研究。孟天广等认为学者们可以根据网民的主动搜索行为进行分析从而揭示公众对某些议题的偏好程度 [
文章研究的事件范围是2020-01-09~2-19,涵盖了疫情开始、经过拐点到被控制。由于港、澳、台地区的数据口径与其他省份有差异,空间上选择了中国的31个省级行政区。研究数据主要来源于以“新型冠状病毒”百度搜索指数六周数据、丁香园实时疫情数据、中商情报网和《中国互联网发展报告》。由于百度指数易于获取并且可以进行网页和新闻的搜索,文章使用百度搜索指数作为新冠疫情网络舆情热度数据。
空间自相关性是指在同一个分布区域内不同变量的观测数据之间潜在的关联性。主要分为全域性和区域性两种。全域性是对全局空间自相关性分析,区域性是对局部空间自相关性分析。全局空间自相关分析主要方法是用Moran’s I值和Join Coun算法,本文通过计算Moran’s I值对疫情网络舆情热度的全局空间特征进行分析,空间权重矩阵利用Rook邻接准则,其公式为:
I = ∑ i = 1 n ∑ j = 1 n W i j ( x i − x ¯ ) ( x j − x ¯ ) S ∑ i = 1 n ∑ j = 1 n W i j (1)
Z = I − E ( I ) V a r ( I ) (2)
S 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 (3)
x ¯ = 1 n ∑ i n x i (4)
(1)式中,I是莫兰指数,它的取值范围为−1到1。Moran’s I > 0时,表示各个省份的舆情热度数据成空间正相关,越接近1表明舆情热度空间相关性越明显;Moran’s I < 0时,表明各个省份舆情数据成空间负相关,越接近−1表明舆情热度负相关性越强。Moran’s I等于0表明各个省份舆情热度差异性不明显。(2)式中,Z的值是标准差的倍数,标准差能够反映一组数据的离散程度。其中E(I)为数学期望,Var(I)为方差,若Z < −1.65或Z > 1.65时,表示通过显著性检验,空间分布具有相关性。(3)和(4)式中,n为变量的多少,Xi代表每一个变量值,Wij为i和j的之间的空间权重。
在做全国舆情数据全局空间自相关性分析的时候难以发现存在相关性,这个时候可以考虑局部空间自相关性分析,这能够帮助寻找可能掩盖的局部空间自相关的位置,探讨是否存在空间异质性。文章选取Getis-Ord G i * 指数,通过地理要素空间高低聚类判断空间内高值和低值聚类存在的位置来判断舆情热度的冷热点分布。公式为:
G i * = ∑ j = 1 n W i j ( d ) X j ∑ j = 1 n X j (5)
该式中,n是研究的省份总数,Wij为i省份和j省份的之间的空间权重,Xj是省份j的搜索指数值。在通过显著性检验的前提下,若 G i * 为正且值越高,表示该省份为舆情热度高的省份;若 G i * 为负且值越低,表示该省份舆情热度值比较低。
图1中表明,从时间上来看各个省份对疫情的百度搜索指数来看,各个省份的舆情热度值的高低以及发展趋势基本上是一致的:从2020年1月18日开始,网络舆情热度随着时间急剧增加,急剧增加的原因可能是是该时间点正处于我国春节假期,网民平均每日的上网时间增加;舆情热度在1月25日达到最高峰,1月28日、2月6日、2月13日是舆情热度处于高峰的四个时期;封城和居家隔离等政策实施后,确诊人数增速减缓的同时舆情热度也开始下降。许小可等发现舆情热度高峰出现的周期与疫情3到7天的潜伏期基本上相吻合 [
表1是运用ArcGis软件计算新冠肺炎疫情网络舆情热度的全局Moran’s I值。在计算的时间范围内全局Moran’s I值均为正,这表明各个省份疫情网络舆情热度存在显著的空间正相关性;第二周的Moran’s I的值最大,并且Z值大于1.65,通过了显著性检验,第二周舆情热度在空间分布上呈集聚模式;其他时间段内舆情热度在空间呈随机态势,这可能由于全局空间自相关性的局限性导致的,也可能是由于疫情遍布多个省份,使得差异性不显著。从舆情热度演变趋势看,第一周和第二周全局Moran’s I值比较大,第二周后全局Moran’s I值不断减小,表明舆情热度各个省份的差异逐渐不明显。
图1. 各省网络舆情热度变化图
时间 | Moran’s I | z-score | p-value |
---|---|---|---|
第一周(1.09~1.15) | 0.083 | 1.522 | 0.128 |
第二周(1.16~1.22) | 0.117 | 1.950 | 0.051 |
第三周(1.23~1.29) | 0.078 | 1.438 | 0.150 |
第四周(1.29~2.05) | 0.072 | 1.362 | 0.173 |
第五周(2.05~2.12) | 0.048 | 1.062 | 0.288 |
第六周(2.13~2.19) | 0.044 | 1.015 | 0.310 |
表1. 新冠肺炎疫情网络舆情热度的Moran’s I值
局部空间自相关能够揭示某一要素在空间上的集聚效应。集聚效应强的为热点区也就是舆情热度比较高,集聚效应弱的为冷点区,舆情热度相对比较低。文章运用ArcGis软件计算Gi*值,并利用Jenks自然断裂法将Gi*值由高到低划分为五类,将六周的数据可视化展示,分析舆情热度的演变趋势。从图2我们可以看出。
从整体上看,我国新冠肺炎疫情的网络舆情热度存在显著的空间分异特征,舆情冷热点区主要以人口密度线即胡焕庸线为界呈现出不同的空间布局结构,胡焕庸线以东舆情热度较高,以西舆情热度较低。舆情热度高和次高地区主要分布在全国比较繁忙的铁路干线经过的地方,主要有北京市、河北省、河南省、山东省、湖北省、上海市和广东省等地区;长江经济带周围省份江苏省、浙江省、安徽省、湖南省和四川省等地;而新疆、西藏、内蒙古以及东北三省等地区舆情热度比较低,这几个省份的人口基数相对较小。
从舆情热度的空间演变格局来看,第一周的舆情热度高的虽然分布比较广泛,但是整体热度值是最小的;第三周舆情热度分布最为广泛并且热度值较大,表明在第三周的舆情热度最高,是舆情治理的关键时期;第三周后到第六周舆情热度整体上变动幅度变小,空间演变趋势趋于稳定。这在六周时间里,舆情热度高和热度低的地方并没有明显的空间跃迁。
北京和上海作为我国的政治和经济中心,由开始的舆情热度较高慢慢在降低,空间集聚效应在减弱;主要因为这两个城市人口流动性较大,并且正值春节,人口流出比较多,使得新冠肺炎疫情搜索的网民数量减小,所以舆情热度减弱。
图2. 新冠肺炎疫情舆情热度的空间冷热点演变图
网络舆情是一个复杂的系统,网络舆情的大小从传播扩散到最后的衰退整个过程从根本上是由舆情事件本身决定的 [
除此之外,突发公共事件网络舆情热度的地区分布还会受到不同省份的经济发展水平、人口基数和受教育程度等的影响。滕文杰认为,在其他指标一定的情况下,经济发展水平不同会影响网络舆情热度值;刘国巍等人发现一个地区的人口数量、受教育程度和基础设施建设水平也会影响突发事件的网络舆情热度值;周妍发现网络舆情的空间分布会受到地区的健康水平的影响 [
新冠肺炎疫情的特殊性让全国按上了暂停键,此次疫情影响范围广、时间长,文章参考已有的研究成果,构建疫情舆情热度影响机理的指标体系,指标选取了以下8个,由于湖北省是疫情中心,所以湖北省不计算在内:
各省的人均GDP和城市化率;经济水平和城市发展水平决定了的各个省份的不同发展水平和消费能力,经济水平高的地方网络的基础设施建设也相对完善,互联网普及率更高。
人口密度大的省份会使得信息蔓延速度加快,舆情传播速度更快。人口基数大的省份会直接影响搜索总量,提高舆情热度。距离武汉市较近的一般舆情热度要会更大。
网络普及率是指互联网用户数包括PC端和移动端占总常住人口的比重,网络普及率越高的地区,搜索量越大。
国家卫健委每日发布的确诊人数、治愈人数和死亡人数数据也会直接影响舆情热度。
灰色关联分析(GRA)的基本思想是对各因素变化特性的时间序列进行几何比较,能够度量出各因素之间的关联程度的灰色关联。曲线越接近,相应的时间序列之间的关联度也就越大,反之也就越小。
灰色关联分析的计算步骤:
第一步:收集数据进行预处理,并记比较数列为 { x j ( t ) } , j = 1 , 2 , ⋯ , l , t = 1 , 2 , ⋯ , n ) ,参考数列为 { x i ( t ) } , i = 1 , 2 , ⋯ , m , t = 1 , 2 , ⋯ , n 。
第二步:对各因素进行无量纲化处理。
第三步:计算关联度 R i i 以及关联度系数 ξ i j ( t ) ,计算公式如下:
ξ i j ( t ) 为因素 x j 对 x i 在t时刻的关联系数; ρ 为介于[0, 1]区间的灰数,通常为0.5。 R i j 为两因素之间的关联度。
第四步:对关联度 R i j 排序。关联度越小,关系越不紧密;反之关联度越大,关系越紧密。
由表2中的计算结果可知,影响新冠疫情舆情热度的关联度排序为:确诊人数 > 治愈人数 > 城市化率 > 互联网普及率、人均GDP > 人口密度 > 死亡人数 > 距离,且灰色关联度均大于0.6,这也证明了所选取指标与疫情舆情热度具有高关联度,同时还能够看出确诊人数是影响疫情传播的关键因素,广东省、河南省、湖南省由于人口总数大使得确诊人数排名靠前,其次便是治愈人数和城市化率。这表明此次新冠疫情舆情热度受到确诊治愈人数的影响较大,而死亡人数和距离影响相对较小。
指标 | 关联度 | 排名 |
---|---|---|
确诊人数 | 0.898 | 1 |
治愈人数 | 0.888 | 2 |
城市化率 | 0.881 | 3 |
互联网普及率 | 0.879 | 4 |
人均GDP | 0.879 | 5 |
人口密度 | 0.864 | 6 |
死亡人数 | 0.857 | 7 |
距离 | 0.829 | 8 |
表2. 新冠肺炎疫情网络舆情热度影响机理关联度排名
本文探究了2020-01-09~02-19全国除港澳台外的31个省、自治区和直辖市的新型冠状病毒网络舆情热度的时空分布与演变特征。以新型冠状病毒在百度指数上出现的时间作为起始点,分析各个省份在不同时间点的舆情热度,空间上从起始点后的六周数据来分析舆情热度的演化特征,最后指出不同地区舆情热度的影响机理,得出以下几点结论:
1) 疫情舆情热度整体上符合中国的人口分布规律,其时空差异性具体表现为:在空间上,胡焕庸线两侧呈现不同的舆情热度,西侧舆情热度较低,东侧舆情热度较高。在时间上,山东省和广东省舆情热度最高,与这两个省份人口基数大和经济发展水平高有很大的关系;春节期间舆情热度达到高峰后呈现波动式下降趋势。
2) 此次新冠疫情舆情热度受到确诊治愈人数的影响较大,而死亡人数和距离影响相对较小。
习近平总书记指出:“治理和管理一字之差,体现的是系统治理、依法治理、源头治理、综合施策”。在全球化背景下,推进舆情治理现代化是社会主义现代化建设必然要求。本文分析疫情期间不同阶段下不同地区的舆情热度以及演化,为政府舆情有效治理与舆情引导提供了方向。政府也应该督促媒体客观真实地进行报道,避免因不是消息造成的恐慌,加强对疫情防范的宣传,引导网民形成正确的价值观,避免网民对某群体和地域的歧视。同时,社会经济水平和互联网普及率对舆情热度的影响不可小觑,数字基础设施建设有助于舆情治理现代化的建设。
许露萌. 时空视角下突发事件网络舆情热度演变分析Analysis on the Evolution of Online Public Opinion Popularity for Emergencies from Spatial-Temporal Perspective[J]. 应用数学进展, 2022, 11(05): 3009-3017. https://doi.org/10.12677/AAM.2022.115320
https://doi.org/10.1016/S0140-6736(20)30421-9
https://doi.org/10.1016/S0140-6736(20)30985-5
https://doi.org/10.1016/S2468-2667(20)30073-6
https://doi.org/10.1016/S0140-6736(20)30600-0
https://doi.org/10.1371/journal.pcbi.1003256
https://doi.org/10.1086/593098
https://doi.org/10.1111/j.1541-0072.2011.00406.x
https://doi.org/10.1371/journal.pcbi.1002616
https://doi.org/10.1093/ijpor/edq048
https://doi.org/10.1111/j.1540-6237.2011.00768.x
https://doi.org/10.1371/journal.pone.0019467