Semi-Supervised Node Classification Method Based on Graph Clustering Results
Currently, graph convolutional neural networks are considered to be one of the most effective semi-supervised methods in dealing with the classification of complex graph-structured data in real-world, such as knowledge graphs, citation networks, and social networks, but there is still the problem that their learning performance can be affected by severely limited labeled data. In this study, a node classification method using graph clustering results as a guide is proposed to address this problem. Specifically, a data enhancement module is introduced to reduce the noise in the graph structure information, a clustering-oriented graph embedding model is designed as an attribute graph clustering network, and the pseudo-labels of the nodes are predicted based on the clustering results. Meanwhile, to improve the performance of the classification task, high-confidence pseudo-labels are screened to guide the graph node classification task, and a similarity loss is designed to improve the feature similarity between labeled and unlabeled nodes. The results of extensive experiments on the benchmark dataset show that the method can overcome the label number limitation and have superior performance on the graph node classification task compared with existing methods.
Machine Learning
图是表示对象之间关系的非结构化数据,可广泛用于社交媒体网络分析、化学成分分析以及知识图谱的构建等数据挖掘任务。随着深度学习的发展,图卷积神经网络(GCNs)
当前图聚类被广泛应用于社区检测、群体分割等。图聚类的目的是将图中的节点划分为多个不相交的簇,使得簇内部尽可能相似,每个簇之间相差越大越好。图聚类属于无监督学习,因此,如何捕获图的结构信息和利用节点内容属性成为图聚类的一个关键问题。传统图聚类的主要方法是通过图嵌入方法获得每个节点的特征,如DeepWalk
受经典的嵌入方法的启发,一些基于GCNs模型将图卷积提取出的特征应用于K-means,并将重建结构信息作为监督信号指导嵌入特征的生成,如图自编码器(GAE)
无监督学习可以在许多方法中有效地提高深度模型的性能。在计算机视觉领域,Caron
目前GCNs是处理半监督节点分类任务的有效手段之一。然而,GCNs有一个内在的局限性,即它不能有效地将标签传播到整个图中。GCNs的训练仍然需要大量的标记数据来进行参数调整和模型选择,这违背了半监督学习的目的。众所周知,训练深度神经模型通常需要大量的标记数据,而由于标记训练数据的成本高,在许多情况下都无法满足。因此当标记的数据被严重限制时,现有的基于GCNs的技术表现不佳。许多研究表明,如果充分利用在训练中利用未标记的数据,可以显著提高学习的准确性。Lin
基于上述研究,本文设计了一种改进的图卷积神经网络。该网络包括两个部分:属性图聚类网络和半监督节点分类网络。具体来说,与Hui等人的工作不同,本文提出的属性图聚类网络是基于GAE框架,该网络首先将输入的图结构数据进行数据增强处理,一定程度上减少图结构信息中的噪声,然后通过加入了图注意力机制(GAT)
图G首先经过预训练过属性图聚类网络得到聚类结果 ,并预测出图中每个节点的伪标签来扩充半监督分类任务的标签集,得到图的伪标签指示矩阵 :
(1)
其中为K标签类别数。
然后图G通过两层图卷积层得到图的嵌入特征 ,图卷积层的特征提取可以被表示为:
(2)
其中 为归一化后的邻接矩阵, 为矩阵 的度矩阵, 、 表示图卷积层的权重矩阵,h为图的每个节点嵌入特征维度。
接下来,根据嵌入特征Z以及属性图聚类网络预测的伪标签指示矩阵 ,从未标记节点集 中筛选出高置信度的节点,并作为标记数据指导半监督学习。节点如果满足公式(3)和(4)则被认为是高置信度节点,并将其加入伪标记节点集 和标记节点集 中。
(3)
(4)
其中 为置信度阙值。
与此同时,根据标记节点集的节点嵌入特征计算出每个类所对应的语义信息,语义信息的计算可以表示为:
(5)
其中 表示第k类标记节点集, 为锚嵌入特征,表示每个类所对应的语义信息。
最后,网络预测出每个节点最终所对应的标签,具体来说,图中任意节点i的预测标签可表示为:
(6)
(7)
其中 表示两层图卷积操作,根据概率矩阵M,我们添加前 个可能存在的边,并删除前 个最不可能存在的边,得到数据增强后的结构信息 。
本文引入图注意力(GAT)机制,设计了一个融合特征编码器,GAT的特征提取过程可以表示为:
(8)
(9)
其中B图注意力层中多头注意力的头数, 为节点i的邻居节点, 为图注意力层的权重。 表示节点i和节点j之间的相似度系数,可表示为:
(10)
其中 为映射函数。
接下来,将图的节点属性X和增强后的结构信息 作为融合编码器的输入,得到最终融合嵌入特征:
(11)
其中 为线性融合加权系数。更进一步地,通过解码器重构出图的结构信息,这一过程可表示为:
(12)
其中 为图的重构结构信息。
之后,根据t-分布
(13)
其中 表示每个类的质心特征。同时,根据初始聚类分布Q进一步计算目标概率分布 ,作为模型聚类过程中的监督信息:
(14)
为了提高聚类性能,本文筛选出高置信节点集 , 中的任意节点i满足:
(15)
(16)
其中 为置信度阙值。
最后,为了将嵌入过程和聚类过程紧密联系在一起,本文通过
算子
本节主要介绍网络在训练过程中所用到的损失函数,主要包括属性图聚类网络的重构损失和聚类损失,半监督分类网络的交叉熵损失和一致性损失。
本文通过重构损失来指导属性图聚类网络的图嵌入过程,计算图的重构结构信息 和聚类指导的结构监督信息 之间的二元交叉熵损失:
(17)
为了使初始概率分布Q逼近于目标概率分布P,本文将聚类损失定义为KL散度损失:
(18)
最终,属性图聚类网络的总损失可以表示为:
(19)
在半监督分类任务中本文计算所有标记数据的交叉熵误差,因此分类损失可以定义为:
(20)
其中Y为图的真实标签指示函数。值得注意的是,在计算分类损失时,对于标记数据集中新增的高置信度节点,本文使用其伪标签而不是真实标签。
根据聚类假设,如果图中的节点在同一聚类中,它们很可能属于同一类。因此,为了提高分类性能,本文通过一致性损失函数提高标记节点和新增标记节点之间的特征相似度,具体来说,是计算伪标签节点集 中节点的嵌入特征和所对应类的语义信息之间的余弦相似度:
(21)
其中 为余弦相似度函数。最终,半监督分类网络的总损失可定义为:
(22)
为了评估网络的性能,本文使用了三个广泛用于属性图分析的数据集(Cora
在具体实验中,首先以0.01的学习率预训练属性图聚类网络200轮,之后使用0.01学习率训练半监督分类网络400轮,训练期间使用的优化器为Adam。属性图聚类网络的图卷积层和图注意力层的输出维度都设置为[32, 16],图注意力层的多头注意力头数B设置为8,比值系数 和 分别设置0.4和0.02,线性加权系数 设置为0.5,置信阙值 根据所提到的数据集顺序分别设置为[0.3, 0.4, 0.4],超参 和 分别设置为1和0.001。半监督分类网络的卷积层输出维度为[512, 7],置信阙值 根据具体数据集分别设置为[0.8, 0.7, 0.5],超参 和 分别设置为1和2。
在实验中本文首先使用三个标准指标来评估模型在聚类任务上的性能:聚类精度(ACC)、归一化互信息(NMI)和平均随机指数(ARI),这些指标的得分越高,聚类效果越好。
Cora | Citeseer | Pubmed | |||||||
ACC | NMI | ARI | ACC | NMI | ARI | ACC | NMI | ARI | |
K-means | 0.500 | 0.317 | 0.239 | 0.544 | 0.312 | 0.285 | 0.580 | 0.278 | 0.246 |
DeepWalk | 0.529 | 0.384 | 0.291 | 0.390 | 0.131 | 0.137 | 0.647 | 0.238 | 0.255 |
GAE | 0.530 | 0.397 | 0.293 | 0.380 | 0.174 | 0.141 | 0.632 | 0.249 | 0.246 |
VGAE | 0.592 | 0.408 | 0.347 | 0.392 | 0.163 | 0.101 | 0.619 | 0.216 | 0.201 |
DAEGC | 0.704 | 0.528 | 0.496 | 0.672 | 0.397 | 0.410 | 0.671 | 0.266 | 0.278 |
GATE | 0.658 | 0.527 | 0.496 | 0.616 | 0.401 | 0.381 | 0.673 | 0.322 | 0.299 |
GMM-VGAE | 0.717 | 0.530 | 0.562 | 0.675 | 0.407 | 0.424 | 0.711 | 0.299 | 0.330 |
Ours | 0.757 | 0.597 | 0.577 | 0.698 | 0.446 | 0.458 | 0.714 | 0.345 | 0.346 |
本文所提出的属性图聚类网络在三个基准数据集上与其他聚类方法的比较结果如
更进一步地,本文通过ACC指标评估半监督分类网络的性能。在控制标签率相同的情况下,我们与标签传播(LP)、图卷积神经网络(GCN)、Li等人提出的一些协作训练方案(Co-training、Self-training、Union以及Intersection)以及协作图卷积网络(CGCN)进行了大量的对比实验,详细的对比实验结果参考
标签率 | 0.5% | 1% | 2% | 3% | 4% | 5% |
LP | 0.564 | 0.623 | 0.654 | 0.675 | 0.690 | 0.702 |
GCN | 0.509 | 0.623 | 0.722 | 0.765 | 0.784 | 0.797 |
Co-training | 0.566 | 0.664 | 0.735 | 0.759 | 0.789 | 0.808 |
Self-training | 0.537 | 0.661 | 0.738 | 0.772 | 0.794 | 0.800 |
Union | 0.585 | 0.699 | 0.759 | 0.785 | 0.804 | 0.817 |
Intersection | 0.497 | 0.650 | 0.729 | 0.771 | 0.794 | 0.802 |
标签率 | 0.5% | 1% | 2% | 3% | 4% | 5% |
Two-Stage | 0.579 | 0.670 | 0.748 | 0.790 | 0.815 | 0.833 |
CGCN | 0.643 | 0.724 | 0.768 | 0.801 | 0.827 | 0.842 |
Ours | 0.732 | 0.763 | 0.806 | 0.823 | 0.832 | 0.843 |
标签率 | 0.5% | 1% | 2% | 3% | 4% | 5% |
LP | 0.348 | 0.402 | 0.436 | 0.453 | 0.464 | 0.473 |
GCN | 0.436 | 0.553 | 0.649 | 0.675 | 0.687 | 0.696 |
Co-training | 0.473 | 0.557 | 0.621 | 0.625 | 0.645 | 0.655 |
Self-training | 0.433 | 0.581 | 0.682 | 0.698 | 0.704 | 0.710 |
Union | 0.463 | 0.591 | 0.667 | 0.667 | 0.676 | 0.682 |
Intersection | 0.429 | 0.591 | 0.686 | 0.701 | 0.708 | 0.712 |
Two-Stage | 0.513 | 0.606 | 0.689 | 0.714 | 0.719 | 0.723 |
CGCN | 0.593 | 0.631 | 0.695 | 0.726 | 0.728 | 0.746 |
Ours | 0.681 | 0.716 | 0.718 | 0.722 | 0.740 | 0.745 |
标签率 | 0.03% | 0.05% | 0.1% | 0.3% |
LP | 0.614 | 0.664 | 0.654 | 0.668 |
GCN | 0.605 | 0.575 | 0.659 | 0.778 |
Co-training | 0.622 | 0.683 | 0.727 | 0.782 |
Self-training | 0.519 | 0.587 | 0.668 | 0.770 |
Union | 0.584 | 0.640 | 0.707 | 0.792 |
Intersection | 0.520 | 0.593 | 0.694 | 0.776 |
Two-Stage | 0.607 | 0.641 | 0.722 | 0.782 |
CGCN | 0.647 | 0.692 | 0.778 | 0.803 |
Ours | 0.708 | 0.718 | 0.733 | 0.810 |
本文所提出的方法有效地利用了属性图聚类,提高了半监督分类的性能。为了对图嵌入空间中的复杂数据分布进行建模,我们提出了一种面向聚类的端到端属性图聚类网络,通过特征融合机制整合图的结构信息和节点属性,高效学习图的嵌入特征。同时,为了解决半监督分类任务容易受标签数量限制的问题,利用属性图聚类网络生成的高置信度伪标签集扩充现有的标签集,为模型学习图的特征提供了良好的指导。在属性图聚类和半监督节点分类任务上与其他方法的大量对比实验验证了该模型的优越性。
基于安徽省自然科学基金资助(2008085MF190)。