1. 引言
近年来,随着Twitter、微博等社交媒体的迅猛发展,在线社交网络逐渐取代传统的报纸和杂志,成为主要的信息传播方式。用户在社交网络自由分享日常、表达观点,同时也为虚假新闻的广泛传播提供可乘之机[1]。假新闻容易误导公众舆论,引发信任危机并扰乱社会秩序[2]。因此,假新闻检测成为自然语言处理领域的重中之重[3]。
当前假新闻检测方法虽然结合文本和图像特征,但通常忽略新闻帖子重要的社交上下文信息。其中存在的互动用户和评论信息揭示新闻在社交网络中的传播模式和用户反应,为虚假新闻的检测提供额外的重要线索[4]。不同于文本和图像处于欧几里得空间,社交上下文信息通常为非欧几里得数据,本文提供两者对比示意图如图1所示,基于近期图神经网络在处理非欧几里得数据的优势[5],许多研究开始关注使用图神经网络建模社交上下文信息并将其嵌入到合适的欧几里得空间以提升虚假新闻检测准确性。社交上下文信息中通常包含互动用户及评论信息,基于社交实体和社交信息之间的联系可以使用图神经网络将上述信息建模为异构图。现有传统图检测方法基于图卷积网络和图注意网络,仅依赖简单聚合函数(如平均聚合或加权聚合),难以获取远距离节点特征,从而丢失了图中更广泛的信息。
Figure 1. Representation of Euclidean and Non-Euclidean Spaces
图1. 欧几里得和非欧几里得空间表示
因此本文提出基于图同构网络的多模态虚假新闻检测框架(Graph Isomorphism Networks Fake News Detection, GIN_FND),通过提取新闻中文本、图像和社交上下文的多模态信息,在基于文本和图像作为输入特征的基础上,引入图同构网络(GIN)对新闻的社交上下文信息建模。GIN基于Weisfeiler-Lehman (WL)算法的单射性特征,在聚合时为每个节点及其邻居分配独特的特征表示,通过多层递归应用聚合函数捕捉远距离节点特征,增强GIN区分不同图结构的能力,提高对局部结构捕捉的同时获取社交图结构的深层次全局特征,将提取到的多模态信息进行充分融合最后输入分类器进行检测,可以有效提升模型检测准确性。
2. 相关工作
2.1. 虚假新闻检测
基于模态输入种类不同,虚假新闻检测可分为单模态检测和多模态检测。
2.1.1. 单模态模型
单模态检测模型主要基于文本和图像进行假新闻检测。文本信息检测方面,早期传统机器学习[6]基于词汇级别提取新闻语义特征,随着深度学习技术发展,Vroc [7]使用变分自动编码器VAE自编码文本信息生成文本嵌入表示用于假新闻检测。此外,研究发现,真实新闻和虚假新闻所包含的图像在分布上存在显著差异[8]。通过学习图像的欺诈模式,识别潜在伪造内容[9],MVNN [10]进一步整合图像频域及空域信息,识别伪造图片检测假新闻。尽管上述单模态检测工作取得成效,但忽略了新闻内容中存在着重要的社交信息,这在一定程度上限制了模型的性能。
2.1.2. 多模态模型
在文本和图像信息应用基础上,大量研究同时整合这两种信息,进一步提升假新闻检测效果。Spotfake [11]利用预训练模型VGG和BERT分别提取新闻文本和图像信息,拼接融合检测假新闻;Spotfake+ [12]将BERT替换为XLNET,进一步提升模型效果。EANN [13]在融合文本和图像信息基础上设计事件鉴别器,辅助检测假新闻。此外,SAFE [14]通过检测图文相符性,计算文本和图像相似度鉴别虚假新闻。除了对文本和图像的深层融合,社交新闻中更多潜在信息的挖掘为假新闻检测领域填补许多空白。KMGCN [15]在同一框架下构建包含文本、图像和实体信息的异质信息网络,利用GCN对多模态信息进行融合获得新闻表示,[16]构建异质图,对比新闻实体与外部知识实体共同检测假新闻。研究表明,新闻信息的充分提取对模型效果提升至关重要,但现有多模态方法对于文本、图像和社交上下文信息的同时整合存在探索不足,在一定程度上缺少信息补充,从而限制了模型的整体性能。
2.2. 图神经网络
由于非欧几里得空间节点之间的任意连接更具有随意性,图神经网络在处理如社交新闻中存在的隐含用户传播模式等非欧几里得数据中有更好的表现。图卷积神经网络(GCN)的提出首次将传统卷积神经网络扩展到图结构数据[17],Bi-GCN [18]首次将GCN应用于结合自顶向下和自底向上的传播结构,以同质信息建模帖子及其间的关联信息。随着新闻中社交信息的复杂性和异质性增加,研究逐渐转向关注异质信息的建模。[19]通过捕捉新闻与领域、转发帖和发布者信息间关系,构建已知信息网络,并利用异质图获得节点嵌入表示。尽管GCN在图结构数据处理上取得了初步成功,但其节点聚合方式通常停留在简单的加权平均上,难以捕捉复杂的节点依赖关系。相比之下,图同构网络(GIN) [20]展现出显著的优势。GIN已被证明具有极高的表达能力,特别是在聚合函数和读出函数是内射的情况下,它在区分不同图结构的能力上与WL检验同样强大。这使得GIN能够更深入地挖掘图结构中的深层信息和细微表达,从而在虚假新闻检测任务中展现出更为出色的性能。
3. 本文方法
本节中,我们提出了GIN_FND,一种基于图同构网络的多模态虚假新闻检测框架。主要包括:1) 文本和图像特征提取:使用预训练模型提取文本和图像特征。2) 社交上下文信息表示:基于图同构网络对社交上下文信息进行特征提取。3) 特征融合后分类器检测。
3.1. 问题定义
我们将假新闻检测任务定义为一个二分类任务,给定一个包含文本、图像和社交上下文信息的新闻样本
,其中T表示文本信息,I表示图像信息,G表示社交上下文信息,
表示多模态新闻的数据集,其目标是学习一个函数f,输出预测标签
,即:
(1)
其中,
,当
表示虚假新闻,
表示真实新闻。
3.2. 文本和图像特征提取
本文用向量表示与每篇社交新闻相关的文本和图像,使用预训练模型分别对新闻中文本和图像信息特征提取。对于每篇新闻S,对其文本T和图像I分别提取其特征表示为
和
。
3.2.1. 文本特征提取
文本信息采用BERT进行提取,BERT [21]是一种基于双向Transformer架构的预训练语言模型,在大规模未标注语料库进行无监督训练,实现对语言的深度理解,在众多NLP下游任务中取得优异的效果。具体来说,给定文本T,首先将其分词为词语或子词序列
,每个词语或子词
都被映射为预先准备好的词汇标记嵌入向量
。BERT通过多层Transformer编码器对这些嵌入向量进行处理,生成文本特征的聚合序列表示
,其中
表示第i个词语或子词的隐藏状态向量,如公式(2)所示:
(2)
在模态融合部分,由于涉及到不同模态特征的维度映射,因此提取到的语义特征嵌入
需要通过全连接层进行变换,得到统一维度的特征表示
,如公式(3)所示:
(3)
其中,
是权重矩阵,
是偏置向量。
3.2.2. 图像特征提取
对于图像信息I,本文使用ResNet模型提取视觉特征。ResNet [22]是基于ImageNet大型图像库上训练的预训练模型,通过引入残差连接缓解深层网络梯度消失,在多个计算机视觉任务中表现出色,具有强大的特征提取能力。具体来说,给定一幅图像I,首先将其输入到ResNet模型中,通过多层卷积和残差块的处理,生成一组区域特征表示
,其中
表示第i个区域的特征向量,如公式(4)所示:
(4)
为了适应多模态融合的需求,初步的图像嵌入
需要通过全连接层进行变换,得到最终的视觉特征嵌入
,如公式(5)所示:
(5)
其中,
是权重矩阵,
是偏置向量。最终的视觉特征嵌入
将用于与其他模态信息进行对齐和融合。
3.3. 社交上下文信息表示
在对新闻中社交上下文信息进行特征提取时,关键问题之一是如何有效区分不同类型的图结构。为有效区分不同社交图结构,本文采用了图同构网络(GIN),通过Weisfeiler-Lehman (WL)算法来判断提取的社交图是否拓扑等价。Weisfeiler-Lehman (WL)图同构测试[23]是一种强大的算法,用于区分广泛类型的图结构。WL算法通过迭代执行,聚合节点及其邻域的标签,并将聚合后的标签哈希为唯一的新标签。图2展示了WL测试计算两个图G和G'的聚合图示。此外,如果在某些迭代中两个图之间的节点标签不同,则算法判定两个图是非同构的。
Figure 2. Illustration of the WL algorithm aggregating two graphs for isomorphism testing
图2. WL算法用于测试两图是否同构
GIN利用这种高度表达的聚合方案,有效地捕捉了社交上下文信息的各种图结构。具体而言,GIN将社交上下文信息中的帖子节点、评论节点和用户节点建模为社交图结构,并初始化各节点的特征,然后通过消息传递和聚合过程提取全局图特征,作为模型输入。
社交上下文信息被表示为图
,其中V是节点集合,E是边的集合,三种不同类型节点包括:帖子节点
,评论节点
与用户节点
。帖子节点特征
利用BERT初始化帖子的文本内容嵌入,评论节点特征
利用BERT初始化评论文本内容嵌入,而用户节点特征
则取帖子和评论的平均值作为初始嵌入。每个节点通过其邻居节点接收特征信息,并通过聚合函数对邻居节点特征进行求和,结合自身特征进行更新,具体如公式(6)所示:
(6)
其中,
是节点v在第k + 1层的特征表示,
是节点v的邻居节点集合,
表示邻居特征求和。相应地,有关GIN的多层级聚合公式如(7)所示:
(7)
其中
是第
层的节点特征表示,为防止GIN层数过少节点难以聚合丰富信息,或层数过多导致节点特征难以区分,我们将K设为3。经过k次迭代后,所有节点的最终特征
已经包含其各自k跳邻居信息。为了得到整个图表示,将上述节点特征聚合成全局图特征表示
如公式(8)所示:
(8)
是节点v在第K层的最终特征表示,V是社交图中所有节点集合,
是社交图的全局特征表示。模态对齐融合时为保证相同维度映射,将其使用全连接层转换为社交图嵌入
,具体表示如公式(9)所示:
(9)
通过这些步骤,GIN有效地提取了社交图的深层次信息,增强了虚假新闻检测的性能。
3.4. 模态融合
在将文本、图像和社交图三种模态的表示进行融合时,由于不同模态对于模型存在不同影响,我们使用交叉注意力机制帮助融合,首先使用自注意力机制增强模态自身特征表示,例如对于文本模态
,我们计算查询矩阵、键矩阵和值矩阵如公式(10):
(10)
其中,
是可学习的权重矩阵,h是头的数量。接下来,使用自注意力机制计算文本模态的自注意力特征
,首先计算注意力得分如公式(11):
(11)
将多头注意力结果拼接,通过线性变换生成最终自注意力特征表示如公式(12)所示:
(12)
其中,
是输出的线性变换矩阵,
表示对每个头的输出进行拼接操作。对图像模态
和社交图模态
做类似的处理,得到各自注意力
和
。然后我们使用交叉注意力机制捕捉模态交互,以文本和图像为例,以文本模态作为查询,图像模态作为键和值,增强的文本特征如公式(13):
(13)
类似地,可以得到
,
,
,
,
,通过连接操作进行融合后,我们得到融合的多模态表示如公式(14):
(14)
为了得到虚假新闻的分类结果,我们将新闻样本S最终的多模态表示
输入到全连接层来预测S是否为虚假新闻,如公式(15)所示:
(15)
其中,
表示样本S为虚假新闻的预测概率。然后我们使用交叉熵损失函数,如公式(16)所示:
(16)
最终损失如公式(17)所示:
(17)
其中,
用于调节分类损失权重。
4. 实验
4.1. 数据集
为验证提出模型效果,本文在两个真实世界中流行的数据集验证提出方法的有效性:Weibo [24]和Pheme [25]。Weibo数据集来源于中国最流行的社交媒体,被广泛应用于虚假新闻检测任务,Pheme数据集是一个多语言、多平台的社交媒体谣言数据集,数据内容主要来源于五条突发新闻,同样包含真实新闻和假新闻。具体数据如表1所示。
Table 1. Statistics of dataset
表1. 数据集统计信息
News |
Pheme |
Weibo |
#Real News |
1428 |
877 |
#Fake News |
590 |
590 |
#Images |
2018 |
1467 |
#Users |
894 |
985 |
#Comments |
7388 |
4534 |
4.2. 基线模型
为全面验证所提出模型的有效性,我们选择以下两类基线模型参与对比:单模态模型和多模态模型。
单模态模型
CNN-Text [26]:CNN-Text以新闻文本信息为输入特征,一种学习新闻特征用于假新闻识别的卷积神经网络。
MVNN [10]:MVNN以新闻图像信息为输入特征,一种通过识别虚假图片进而检测虚假新闻的多域视觉神经网络。
多模态模型
EANN [13]:EANN是一种事件对抗神经网络,利用Text-CNN提取文本特征,VGG提取视觉特征,拼接文本信息和视觉信息得到新闻表示,并使用事件鉴别器实现假新闻检测。
ATT-RNN [27]:ATT-RNN利用LSTM模型提取文本信息和社会语境信息,注意力机制融合图像信息和文本信息进行假新闻检测。
MFAN [28]:MFAN是一种多模态特征注意增强网络,通过注意力机制融合文本、图像和社交图特征进行虚假新闻检测。
4.3. 实验细节
我们在文本编码器中采用预训练BERT模型[21]将文本编码为512维嵌入。视觉编码器中输入图像大小为224*224,使用预训练模型ResNet [22]进行特征编码。数据集参考基准采用7:1:2分割训练、验证和测试数据集,实验设置batchsize为16,注意力头数h为8,训练轮次为20轮并采用提前停止策略以防止模型过拟合。使用ReLu激活函数,为了得到模型最优参数,使用Adam [29]作为优化器。
本文评估指标采用准确率指标,用于衡量预测假新闻和真实假新闻之间的相似性,除此之外,利用精度、召回率以及F1指数为假新闻检测提供整体预测性能,上述评估指标此前已被广泛应用于二值分类任务。
4.4. 对比结果
为了验证本文提出的多模态假新闻检测模型的有效性,将其与微博和Pheme数据集上最先进的几种方法进行比较,结果如表2所示:
Table 2. Results of comparison of different models on Weibo and Pheme datasets
表2. 不同模型在数据集上的对比结果
数据集 |
模型 |
Acc |
Prec |
Rec |
F1 |
Weibo |
CNN-Text |
0.71 |
0.70 |
0.72 |
0.71 |
MVNN |
0.69 |
0.67 |
0.70 |
0.70 |
EANN |
0.79 |
0.78 |
0.77 |
0.78 |
ATT-RNN |
0.80 |
0.78 |
0.82 |
0.82 |
MFAN |
0.88 |
0.87 |
0.87 |
0.87 |
GIN_FND |
0.92 |
0.91 |
0.90 |
0.90 |
Pheme |
CNN-Text |
0.72 |
0.70 |
0.68 |
0.69 |
MVNN |
0.70 |
0.71 |
0.72 |
0.69 |
EANN |
0.77 |
0.75 |
0.74 |
0.75 |
ATT-RNN |
0.79 |
0.76 |
0.82 |
0.80 |
MFAN |
0.86 |
0.86 |
0.85 |
0.85 |
GIN_FND |
0.90 |
0.90 |
0.89 |
0.89 |
表2展示了GIN_FND与几种现有的先进方法在微博和Pheme数据集上的性能比较,从结果可以看出,GIN_FND在两个数据集上的表现均优于所有基线模型,无论是准确率(Acc)、精度(Prec)、召回率(Rec)还是F1指数(F1)都达到了最新的最优结果。在Weibo数据集上,本文模型的精度达到0.91,召回率为0.90,这意味着模型不仅能够准确识别假新闻,而且对假新闻的检出率也很高。同样,在Pheme数据集上,模型的精度和召回率分别为0.90和0.89,均高于其他基线模型。这表明本文模型在平衡假新闻的检出率和准确率方面表现优异。
相比之下,单模态模型在检测假新闻时表现出了明显的劣势,准确率和其他指标均低于多模态模型,这可能是由于单一模态信息难以支持准确检测假新闻,这进一步验证了多模态信息融合的重要性。多模态模型通过整合多模态信息,显著优于单模态模型,提升了假新闻检测的准确性,且基于图同构网络的方法更精确捕捉差异,提升检测效果。
5. 结论
在这项工作中,我们提出了GIN_FND,一种基于图同构网络的多模态虚假新闻检测框架,在提取文本和图像的基础上,利用图同构网络建模社交上下文信息,基于WL算法捕捉高阶结构信息,全面捕捉多模态特征,对新闻传播模式做更细微的表达。在Pheme和Weibo两个数据集的实验表明,GIN_FND在各项指标上优于现有方法,在两个数据集上取得最新的最先进的结果。
基金项目
北京市教育委员会科研计划项目资助(KM202410015002、KM202110015003);北京印刷学院博士启动资金(27170123034、27170124010);北京市教委科技计划重点项目(KZ202010015021);电子信息专业学位研究生联合培养基地建设(21090224002):北京印刷学院青年项目——面向融媒体出版物的多模态信息分析与理解技术研究(20190124072)。
NOTES
*通讯作者。