MOGCWMLP: A Multi-Omics Data Integration Model Based on Graph Convolutional Networks and Weighted Multilayer Perceptron for Improved Lung Cancer Staging
Cancer remains one of the leading causes of mortality worldwide, particularly in advanced or metastatic cases, where treatment remains a significant challenge. Accurate cancer staging is critical in clinical practice for determining optimal treatment strategies and assessing patient prognosis. Traditional staging methods primarily rely on imaging and clinical examination data. However, with rapid advancements in genomics and molecular biology, lever aging multi-omics data for early cancer diagnosis and staging has become increasingly important. To enhance the accuracy of cancer classification and staging, this study proposes an ovel multi-omics data analysis framework, MOGCWMLP. This framework utilizes graph convolutional networks (GCN) for feature learning across different omics data types and incorporates a weighted multilayer perceptron (MLP) for classification decision-making. Specifically, MOGCWMLP integrates three distinct types of omics data—mRNA, miRNA, and lncRNA—by extracting and fusing their features through a weighted mechanism, there by maximizing the complementary information among different omics modalities. Experimental results demonstrate that the MOGCWMLP model achieves significantly higher classification accuracy on the lung squamous cell carcinoma (LUSC) dataset compared to existing single-omics and multi-omics models. Notably, the integration of multi-omics data leads to substantial improvements in classification performance. Furthermore, the incorporation of a learnable weighted fusion mechanism enables the dynamic adjustment of each modality’s contribution, further optimizing the model’s classification effectiveness. This study provides an effective tool for precise cancer diagnosis and personalized treatment, while also offering new insights into the integration of multi-omics data.
Cancer Staging
癌症在全球范围内不仅是导致死亡的主要原因之一
癌症分期是评估肿瘤严重程度、指导治疗方案制定以及预测预后的关键步骤
在本研究中我们设计了一个用于生物医学应用中分类任务的多组学数据分析框架MOGCWMLP。MOGCWMLP结合了不同组学数据的特点,采用多个视图来表达不同的数据特征,最后通过加权的感知机网络融合进行分类诊断。具体来说,MOGCWMLP利用图卷积网络(GCN)进行组学特定的学习。与全连通神经网络相比,GCN既利用了组学特征,又利用了相似网络描述的样本之间的相关性。同时在多组学数据整合的过程中,采用加权多层感知机网络,不同组学数据可能包含不同的重要信息。通过每个组学数据的权重来自动调整不同视图在最终决策中的贡献,避免某些视图模型的不合理影响,最大化利用多组学数据的互补信息,从而获得了更好的分类性能。
本研究使用癌症基因组图谱数据库TCGA (
数据集 |
类别 |
原始特征数 |
训练特征数 |
||||
mRNA |
miRNA |
lncRNA |
mRNA |
miRNA |
lncRNA |
||
LUSC |
Normal: 35, Early-stage: 386, Late-stage: 85 |
19938 |
1881 |
16882 |
16036 |
352 |
4569 |
MOGCWMLP模型利用多视图图卷积神经网络(GCN)架构,结合了不同组学数据的特点,采用多个视图来表达不同的数据特征,最后通过加权融合进行分类诊断。MOGCWMLP的整体工作流程如
在预处理和特征筛选后以去除噪声和荣誉特征后,使用GCN来学习每个组学数据类型的特征数据,其中使用皮尔逊相关性为每种类型数据构建样本相似性网络。
三种不同组学数据视图,分别表示为
、
、
,每个视图的矩阵维度为
,其中
是样本数,
是每种组学数据的特征数,每种视图通过一个独立的图卷积网络进行处理,分别输入节点特征矩阵
和样本相似性邻接矩阵
,每一层图卷积通过特征矩阵
和邻接矩阵进行信息传播,捕获结点间的关系。具体计算过程如公式(1)、(2)所示:
(1)
(2)
其中, 是第 层的节点, 是该层的学习权重矩阵, 是归一化的邻接矩阵如公式(2)所示, 是偏置项, 是激活函数(ReLU), 是GCN通过层间信息传播,输出每种视图的图卷积后的特征表示。
图卷积的目的是通过邻接矩阵捕捉样本间的关系,并通过权重矩阵
学习每个视图中的特征。每一层图卷积都会生成新的特征表示,这些表示将会传递到下一层,直到得到最终的图卷积输出。通过图卷积网络有效利用样本之间的相关性和特征之间的关系,充分发挥了图卷积网络(GCN)在多组学数据表征中的优势,使模型在多视图框架下学习到更丰富的特征表示,从而提升分类性能。
在多组学数据的处理过程中,不同视图的特征重要性可能存在差异,因此需要采用加权融合机制来有效整合多个视图的信息。为了解决这一问题,我们对每个视图的输出特征赋予可学习的权重,然后对加权后的特征进行拼接,形成最终的特征向量 ,并将其输入到多层感知机(MLP)网络进行分类。该加权过程确保不同视图的特征在分类任务中按照其学习到的重要性进行贡献,以提升模型的决策能力。
在具体实现过程中,对每种视图最终输出的 ,通过学习的权重 进行加权。这些权重初始化为均匀分布,并在训练过程中不断优化。通过优化,模型能够学习到各视图的相对重要性,并动态调整它们的贡献,以确保最具信息量的组学特征得到更高的关注度。该加权学习策略能够有效捕捉不同组学层之间的互补信息,从而增强模型学习到的特征表示的鲁棒性,具体计算过程如公式(3)所示。
(3)
在加权特征拼接后,所得特征向量被传递到多层感知机(MLP)网络进行最终分类。MLP结构由多个全连接层组成,能够对拼接后的组学数据进行高阶特征抽象,从而更全面地理解癌症分期分类模式。其中每层的输出都会经过ReLU激活函数,以引入非线性并提升特征表达能力。最终输出层采用softmax激活函数,以计算每个类别的预测概率,从而保证模型能够以高置信度将每个样本分配到最可能的癌症分期类别。具体的MLP计算过程见公式(4)。
(4)
加权融合策略最大化了最相关组学特征的贡献,确保从多个生物学视角中提取的信息能够得到最优整合。显著提高了癌症分期诊断的准确性,为个性化肿瘤治疗和临床决策提供了更加精确和数据驱动的框架。
为了验证所提出MOGCWMLP模型的优势,我们将MOGCWMLP模型与传统机器学习和深度学习模型进行比较,包括K近邻(KNN)
从
实验结果表明,传统的机器学习方法依赖于人工特征工程,而MOGCWMLP通过GCN进行端到端的特征许欸小,能够自动挖掘多组学数据中的复杂模式,捕获疾病分期相关的关键特征。MOGCWMLP结合GCN和可学习的WMLP结构,使其能够更好地适应复杂的多组学数据分布,提高模型的泛化能力,从而在多个评估指标上超越MoGCN。MOGCWMLP充分整合了多组学数据,在癌症分期任务中优于传统机器学习方法及其他深度学习模型。模型利用GCN进行特征学习,并结合可学习的加权融合机制,能够有效提取多组学数据之间的复杂关系,从而提升分类性能。
为了进一步验证多组学数据整合能够提升分类性能,我们设计了一系列对比实验,评估了MOGCWMLP模型在不同组学数据组合下的表现。具体而言,我们比较了以下几种训练方式:1) 三种组学数据联合训练(mRNA + miRNA + lncRNA);2) 两种组学数据联合训练(mRNA + miRNA, mRNA + lncRNA, miRNA + lncRNA);3) 单一组学数据训练(mRNA, miRNA, lncRNA)。
从
实验结果表明,MOGCWMLP通过加权融合多种组学数据,在分类任务中均取得了显著的性能提升。相比单组学数据,融合多种组学数据能够提供更加全面的信息支持,使得模型具备更强的泛化能力。进一步验证了MOGCWMLP在多组学数据整合和精准医学领域的应用潜力,为未来的癌症诊断和个性化治疗提供了重要的计算工具。
为了验证加权融合参数的有效性,我们进行了两种情况下的对比实验:一种是权重不可学习时,设置为固定均值;另一种是权重可学习时,模型能够动态调整不同视图的权重,随着训练的进行模型能够动态适应不同视图的重要性自动学习不同视图的重要性。这两种方式的比较结果如
从
实验结果表明,可学习的加权机制显著提升了MOGCWMLP模型在多组学数据整合中的表现。相较于传统的固定权重方法,动态调整权重能够更好地捕捉不同组学数据的特征,避免信息丢失或过度偏倚。这一特性使得MOGCWMLP在癌症分期任务中具备了更高的稳定性和准确性,为精准医学中的多组学数据整合提供了有效的解决方案。
针对本研究使用的肺腺癌(LUSC)数据集,对模型提取出的前300个特征基因进行GO功能富集分析(
GO富集结果表明,肺鳞癌特征基因在角化、皮肤发育、免疫应答及蛋白水解酶调控方面具有显著富集,进一步验证了肺鳞癌起源于鳞状上皮细胞的特性。角蛋白及中间纤维的富集反映了细胞结构稳定性的重要性,而蛋白酶及趋化因子受体的作用暗示肺鳞癌可能通过调节细胞外基质降解和免疫微环境促进肿瘤进展。丝氨酸蛋白酶和其抑制剂可能成为潜在的靶向治疗点,调节蛋白酶活性可能影响肺鳞癌细胞的侵袭性和耐药性。
本研究提出的MOGCWMLP框架在癌症分期分类任务中展示了卓越的性能,尤其是在多组学数据整合的背景下。我们首先使用三种不同类型的组学数据(RNA-seq, miRNA, lncRNA),并采用图卷积网络(GCN)对每种组学数据进行特征学习。通过构建样本相似性网络并学习各组学特征,我们能够捕捉到不同组学数据之间的深层次关系。此外,在特征融合阶段,MOGCWMLP采用了加权多层感知机(WMLP)进行加权融合,以便充分利用每个组学数据视图的独特信息,从而避免某些视图对最终决策的过度影响。研究结果表明,MOGCWMLP作为一种先进的计算工具,在精准肿瘤学与多组学数据分析方面具有重要的应用价值。
与现有的传统癌症分期方法(如基于单一组学数据的GCN模型)相比,MOGCWMLP框架通过有效的多组学数据融合显著提升了分类精度。在实验中,我们将MOGCWMLP与不同的组合模型进行了对比,结果表明,MOGCWMLP在所有测试任务中均取得了最佳的分类性能。特别是,当使用三种组学数据的融合时,MOGCWMLP模型的表现优于使用任何两种组学数据的模型。此外,使用多组学数据的模型无论在准确性、精确性还是F1分数方面,都优于单组学模型。
加权融合机制的有效性是本研究的另一大亮点。在实验中,我们比较了可学习和不可学习的加权机制。通过引入可学习的加权参数,MOGCWMLP能够动态地调整不同视图的权重,使得模型能够根据每种组学数据的特征自动优化各视图的贡献。结果显示,采用可学习权重的模型在所有评估指标上均优于固定权重模型,进一步证明了多组学数据融合在癌症分类中的重要性。通过这一机制,MOGCWMLP能够更好地利用不同组学数据之间的互补性,从而提高分类准确性。
然而,本研究也存在一些局限性。首先,虽然MOGCWMLP在肺鳞癌(LUSC)数据集上表现出色,但目前的研究主要集中在肺鳞癌这一特定癌症类型。未来的研究可以验证MOGCWMLP在其他癌症类型中的适用性和效果,例如乳腺癌、胃癌等。此外,模型的训练时间较长,尤其是在大规模数据集上进行训练时,计算复杂度较高。因此,未来可通过优化算法或采用更强的计算资源来加速模型的训练过程。
尽管如此,MOGCWMLP框架仍为癌症精准分期和个性化治疗提供了一个有力的工具。随着深度学习和多组学数据分析技术的不断进步,我们预计该方法在临床癌症诊断中将发挥越来越重要的作用。未来,结合更多的组学数据(如表观遗传学、代谢组学等)以及更复杂的深度学习模型,MOGCWMLP有望在癌症的早期诊断、精准分期和个性化治疗方案的制定方面取得更广泛的应用。
*通讯作者。