1. 引言
在癌症研究中,确定癌症亚型和估计患者预后至关重要[1] [2]。高通量测序技术生成的大量多组学数据,是进行癌症预后研究的关键资源。随着生物技术的快速发展,各种组学数据的获取变得越来越方便。一些大型协作项目如癌症基因组图谱(TCGA) [3]、基因表达数据库(GEO) [4]和国际癌症基因组联盟(ICGC) [5]等,已经收集了成千上万个样本的多种组学数据,这为通过计算方法分析癌症亚型提供了前所未有的机会。早期方法通常在单一组学数据上应用聚类算法来预测癌症亚型[6]。然而,由于每种组学数据仅在一定层次上表征分子特征,多组学数据的整合可以为描述癌症亚型提供更全面的视角,并进一步加深我们对跨多个层次的生物分子复杂相互作用的理解[7] [8]。因此,利用多组学数据预测癌症亚型的计算方法受到了极大的关注。然而,高维生物数据包含着成千上万个单核苷酸多态性、基因和蛋白质,因此分析多组学数据是一项极具挑战性的任务[9]。为此,近年来涌现出了许多整合多组学数据的方法,其中大部分依赖于降维技术[10]。传统的统计线性降维方法包括因子分析和主成分分析(PCA)。近年来,深度学习技术取得了显著进展,并在多组学数据的分析中得到广泛应用,其强大之处在于能够分析非线性关系[11]。卷积神经网络(CNN) [12]在图像识别[13]和医学诊断[14]中被广泛应用。卷积自编码器(CAE) [15]结合了CNN和自编码器的优点,在癌症预后分析中用于降维。然而,传统的监督学习在需要大量标注数据时可能受限于数据的稀缺性和高昂的标注成本。为了克服这些挑战,对比学习作为一种自监督学习范式引起了研究者的关注。对比学习不仅在自然语言处理和计算机视觉中取得了成功,也开始在生物信息学领域展现出潜力[16] [17]。它通过设计前置任务来构造正负样本对,训练特征模型,使得相似实例在映射空间中距离较近,而相异实例则距离较远。这种方法不仅能在标注数据有限的情况下提取有效的特征表示,还能够通过特征空间的调整来增强模型的泛化能力,从而在多组学数据的分析和应用中发挥更大的作用[18]。
本文提出了一种基于卷积自编码器的深度多视图对比学习模型(dmCLCAE),该模型利用CAE [19]整合多组学数据并通过将重构损失和对比损失纳入一个统一的框架进行预后预测,我们的模型能够同时将样本区分信息编码到提取的特征表示中,并在嵌入空间中很好地保持样本的聚类结构。dmCLCAE的输入数据包括拷贝数变异(CNV)、DNA甲基化(甲基化)、RNA测序(RNA-seq)和miRNA测序。我们将dmCLCAE应用于两组癌症数据集:其中一组包含10种含四个组学数据的癌症数据集,另一组包含2种含三个组学数据(不含miRNA-seq)的癌症数据集。结果表明,我们的模型比任何其他已发表的模型具有更好的预测准确性。
2. 材料与方法
2.1. 生物多组学数据
近年来,生物组学数据库(如基因组、转录组、蛋白组、代谢组等)的数据越来越多,内容越来越全面。这些数据库收集和整理了大量的生物学信息。研究人员越来越重视将不同类型的组学数据结合起来进行分析。这种整合的趋势使得研究人员能够从多个层面对癌症进行更全面和深入的理解。通过整合不同的组学数据,科学家能够更准确地对不同类型的癌症进行分类。这有助于识别出癌症的不同亚型,从而为个性化治疗提供依据。当前,主要通过基因芯片和下一代测序技术来获取癌症相关的生物组学数据。基因芯片技术可以同时检测大量基因的表达水平,而下一代测序技术则能够对基因组进行高通量、精确的测序。为了有效利用这些海量的组学数据,科学界已经建立了许多公共数据库。这些数据库汇总了大量的多组学数据,使研究人员能够方便地获取和分析这些数据,从而推动癌症研究的发展。
本文的数据来源于癌症基因组计划——The Cancer Genome Atlas (TCGA)。为了深入研究癌症的分子机制及其生物标志物,本文从TCGA数据中心下载了12种癌症的多组学数据集。对于其中10种癌症,我们获取了四种主要组学类型的数据:RNA测序(RNA-Seq)、DNA甲基化、拷贝数变异(CNV)以及miRNA测序(miRNA-Seq)。而对于剩余的两种癌症类型——肺癌和胶质母细胞瘤,由于数据集中缺少miRNA-Seq信息,我们仅收集了RNA-Seq、DNA甲基化和CNV三种组学数据。此外,为了更全面地进行不同癌症类型的生存分析和预后评估,本文还下载了每种癌症患者的生存信息。
2.2. 基于统计降维方法的多组学整合算法MOFA+
Argelaguet等人开发的多组学因子分析算法(MOFA+)来整合和分析多组学数据。MOFA+通过将输入的数据矩阵分解为因子矩阵和权重矩阵,从而学习到输入数据的低维表示,捕捉不同组学数据中的共同和特定特征,便于后续的下游分析。具体而言,MOFA+处理
维的M个数据矩阵
,其中N表示样本数,
表示第m个数据矩阵的特征数。MOFA+通过以下公式分解这些数据矩阵:
其中,Z为
的因子矩阵,K为因子数;
为第m个数据矩阵的权重矩阵,尺寸为
;
为噪声项,代表特定于每个矩阵的误差或噪声。MOFA+在概率贝叶斯框架中构建,所有未观测到的变量都被赋予先验分布。因子矩阵Z采用标准正态先验分布
,权重矩阵
使用稀疏先验分布,以使得权重矩阵中的大多数元素为零,从而实现特征选择。噪声项
也被赋予相应的先验分布,以控制其大小和影响。
2.3. 基于深度学习方法的多组学整合算法ProgCAE
Liu等人提出来了一种基于卷积自动编码器的新型深度学习模型(ProgCAE)。该方法能够高效进行表征学习和数据整合,有效捕捉不同组学数据之间的复杂关系。该模型首先通过卷积自动编码器整合多组学数据集,并将其转化为潜在表示。随后,利用潜在表示构建单变量Cox比例风险回归模型,以筛选出与患者生存显著相关的特征。通过这一过程,识别出对生存具有重要影响的特征。接着,利用这些特征对患者进行聚类和分类。自编码器是一种神经网络模型,能够基于输入数据学习有效的编码方式。其结构如图1所示,通常由输入层、一个或多个隐藏层以及输出层组成。自编码器的目标是将输入数据压缩到隐藏层,并通过解码器从压缩表示中重建输入数据。自编码器包括两个主要部分:编码器(Encoder)和解码器(Decoder)。
Figure 1. Autoencoder architecture
图1. 自编码器结构
编码器通过一系列非线性变换和特征提取将输入数据映射到隐藏层,而解码器则通过类似的方式将隐藏层的表示重构回原始输入数据。对于输入x,隐藏层值z为x的编码,即:
自编码器的输出值为
,
其中
为激活函数,
,
,
,
为网络参数,通过最小化重构损失训练得到。通过这种压缩和重建过程,自编码器能够学习到有效的数据表示,用于数据降维、特征提取和数据压缩等应用。卷积自编码器(Convolutional Autoencoder, CAE)是一种结合了卷积神经网络(Convolutional Neural Network, CNN)和自编码器(Autoencoder, AE)优势的模型。与传统神经网络相比,卷积神经网络能够利用卷积核从一组高度相关的组学特征中学习信息,能够有效捕捉复杂生物信息数据中的局部模式和特征,这有助于提高自编码器的降维效果。所提到的卷积自编码器框架如图2所示。
Figure 2. Convolutional autoencoder network architecture
图2. 卷积自编码器网络结构
处理后的多组学数据通过卷积自编码器进行处理。数据经过多步骤的卷积操作后展平为高维长向量,接着通过全连接层提取潜在因子,并最终通过反卷积操作重构数据。通过重构误差来更新编码器
和解码器
的参数
.
其中n是数据集中的样本数,
是第i个样本。
2.4. 基于深度学习方法的多组学整合算法dmCLCAE
使用自编码器[20]提取的潜在表示虽然包含了样本的关键信息,但在区分样本方面表现不佳。这是因为自编码器主要关注恢复样本细节,而不是学习区分度强的特征。多组学数据中,不同组学之间的一致性信息没有被充分利用,导致潜在表示不能很好地反映多视图数据的综合特性。为了解决上述问题本文提出在模型中引入比学习方法。对比学习是一种自监督学习范式,通过对比正样本对和负样本对的相似性来学习区分度强的表示。正样本对是指同一数据的不同组学,负样本对则是指不同数据的组学。与传统的单组学对比学习依赖数据增强策略构建正样本对不同,本文利用多组学数据,直接将同一样本的不同组学作为正样本对,不同样本的组学作为负样本对。这样能够更好地利用多组学间的一致性信息。具体的,
由第v个组学数据通过CAE得到的隐藏层值,则
表示正样本对,
表示负样本对。首先给出任意一对隐藏层值的cosin相似性度量公式
,
充分利用多组学数据之间的联系,通过迭代将一个组学作为锚点,并从其他组学中枚举正样本对和负样本对。给出
对比损失为
,
其中
是温度参数用于控制控制模型对相似性和差异性的敏感程度。
定义对比学习损失为
.
本文最终提出的模型损失函数表示为
.
通过使用卷积自编码器,可以将各种组学数据降维到一个预定义的低维空间,从而获得简化且信息丰富的数据表示形式。这种低维表示不仅保留了原始数据中的关键信息,还降低了数据的复杂性,便于后续的特征选择。然后,本文构建单变量Cox-PH模型来评估单个因子对生存时间的影响。通过对每个因子分别建模并根据模型生成的P值进行筛选,可以识别出与患者生存显著相关的变量。
3. 结论
3.1. 模型分类效果
本研究收集了十二种癌症患者的多组学数据集,以及生存时间和存活状态数据,用以评估dmCLCAE的效果。由于这些患者样本缺乏标签,本文通过聚类方法将患者分组,以进行预后分型。为了综合评估模型的聚类准确性和生存预测效果,本文计算了轮廓系数和对数秩检验P值两个指标。首先,轮廓系数是一种评估聚类效果的方法,取值介于[−1, 1]之间,值越大表示聚类效果越好。我们利用Cox-PH模型选择的特征进行K-means聚类,并在不同的K值下计算轮廓系数。其次,对数秩检验是一种比较多个生存曲线差异的常用方法,一般情况下,P值小于0.05被认为具有统计显著性。首先,表1结合对数秩检验的P值和轮廓系数,确定了每种癌症的最佳亚型数目。显示了dmCLCAE在不同癌症聚类数目下的表现。结果表明,dmCLCAE在不同K值下对每种癌症患者均实现了显著的分型(P值 < 0.05),且轮廓系数均大于0.1,说明聚类效果良好。最终,综合考虑P值和轮廓系数后,确定了每种癌症的最优聚类数目,其中BLCA、BRCA、GBM、LUAD和LUNG的最佳聚类数目为四个,SARC最佳聚类数目为三个,其余癌症最佳聚类数目为两个。在此最佳聚类数目下,各种癌症的对数秩检验P值均低于0.001,表明分型效果显著。
Table 1. Number of cancer subtypes identified under dmCLCAE
表1. dmCLCAE下确定的十二种癌症亚型数目
癌症 |
最优亚型数 |
2 |
3 |
4 |
5 |
P值 |
轮廓系数 |
P值 |
轮廓系数 |
P值 |
轮廓系数 |
P值 |
轮廓系数 |
ACC |
2 |
1.00E−07 |
0.5207025 |
3.00E−06 |
0.39596155 |
2.05E−06 |
0.350057 |
7.11E−06 |
0.2946729 |
BLCA |
4 |
0.002309084 |
0.30950302 |
0.000108597 |
0.23487175 |
8.56E−05 |
0.2228461 |
4.90E−05 |
0.20080127 |
BRCA |
4 |
0.026639243 |
0.5462436 |
0.012729878 |
0.52440363 |
0.006938333 |
0.52509767 |
0.234111699 |
0.52573264 |
COAD |
2 |
6.34E−05 |
0.30648416 |
0.001437175 |
0.25758713 |
0.000698961 |
0.25063124 |
0.000338717 |
0.22908437 |
GBM |
4 |
0.001388466 |
0.38981345 |
0.000114685 |
0.3051706 |
4.66E−05 |
0.33175394 |
0.008657981 |
0.3039649 |
LUAD |
4 |
0.000389779 |
0.2780115 |
2.98E−05 |
0.18462536 |
1.19E−06 |
0.17062436 |
0.000408619 |
0.13294406 |
LUNG |
4 |
0.609864805 |
0.28362718 |
0.00958008 |
0.28988472 |
0.000263209 |
0.26026478 |
0.001169444 |
0.2337012 |
LUSC |
2 |
1.90E−05 |
0.3579545 |
7.71E−05 |
0.23511612 |
0.001282313 |
0.22646917 |
0.002225513 |
0.19889073 |
PRAD |
2 |
0.02430841 |
0.39426908 |
0.031824376 |
0.41576302 |
0.237154723 |
0.36427942 |
0.373457796 |
0.37346262 |
SARC |
3 |
0.004447248 |
0.28042555 |
0.001316286 |
0.2588831 |
0.003227221 |
0.27802154 |
0.007532482 |
0.2612162 |
STAD |
2 |
0.000308817 |
0.3048487 |
0.000386375 |
0.29102576 |
0.000215493 |
0.2482764 |
0.000832402 |
0.23739746 |
THCA |
2 |
0.000368239 |
0.33038157 |
0.007984258 |
0.2612367 |
0.004741932 |
0.19961411 |
0.005716601 |
0.21560447 |
为了更直观地评估聚类效果,本文引入了Kaplan-Meier生存曲线(简称K-M曲线)。K-M曲线是一种在生存分析中广泛应用的非参数方法,用于估算在特定时间点上的生存概率。该方法适用于观察性数据,即研究对象在不同时间点进行观察,但不一定每个对象都被观测到整个研究期间。由于K-M方法不依赖于对生存时间分布的假设,因此适用于各种生存时间分布情况。曲线上的每个阶梯表示事件(如死亡或复发)发生的概率,常用于比较不同治疗组的生存情况、评估患者预后和研究预后因素的影响。它为理解患者群体的生存状况提供了一种直观的方式,并可以估计中位生存时间和特定时间点的生存率。图3展示了dmCLCAE聚类后进行生存分析的结果。
为了比较所提出模型的优越性,本文还应用了MOFA+和ProgCAE模型对不同类型的癌症进行分类。以dmCLCAE选择的最佳聚类数目为基础,我们通过MOFA+进行了聚类分析。在对12种不同类型的癌症进行分析后,发现MOFA+在ACC、GBM和LUAD三种癌症类型中得到的生存亚型存在显著差异(P值小于0.05)。相比之下,ProgCAE在不同聚类数目下的表现来看,其在BRCA癌症患者和PRAD癌症患者的K = 2和K = 3时差异不显著(P值大于0.05)。
Figure 3. Kaplan-Meier curves for 12 types of cancer under dmCLCAE
图3. dmCLCAE的12种癌症的Kalpan-Meier曲线
3.2. 模型预测一致性
为了比较不同模型在预后价值上的表现,并评估DmCLCAE和ProgCAE在聚类效果上的差异,本文通过Cox-PH模型计算了一致性指数(C-index)。此外,为了提高结果的稳健性,我们采用了留出法和5折交叉验证。表2展示了DmCLCAE和ProgCAE的C-index对比结果。
Table 2. Comparison of C-index between DmCLCAE and ProgCAE
表2. DmCLCAE和ProgCAE下的C-index对比
癌症 |
dmCLCAE |
ProgCAE |
ACC |
0.7573 |
0.7681 |
BLCA |
0.6089 |
0.6333 |
BRCA |
0.5601 |
0.5179 |
COAD |
0.5707 |
0.5580 |
GBM |
0.6633 |
0.7272 |
LUAD |
0.6396 |
0.6193 |
LUNG |
0.5402 |
0.5221 |
LUSC |
0.5460 |
0.5023 |
PRAD |
0.2644 |
0.4761 |
SARC |
0.7097 |
0.6838 |
STAD |
0.5567 |
0.5369 |
THCA |
0.7176 |
0.6137 |
因此,综合上述结果DmCLCAE在区分不同生存亚型方面,结果显示出更为显著的差异,并且在预测一致性方面也表现更佳。如表2所示,在12种分析的癌症类型中,有8种显示出DmCLCAE具有更高的一致性指数。
4. 讨论
癌症是一种恶性疾病,在研究中准确地识别其亚型和预测患者的预后至关重要。伴随着大量组学数据的产生,研究人员获得了宝贵的资源。多组学数据的整合有助于减少来自不同平台的噪声,从而获得一致的生物信号,并揭示关键的生物学机制。然而,处理多组学数据中的高维生物数据仍是一个重大挑战,特别是当分析涉及数以千计的单核苷酸多态性、基因和蛋白质时,这一问题尤为突出。
为了应对多组学数据整合所遇到的挑战,本研究提出了一种基于卷积自编码器的深度多视图对比学习模型——dmCLCAE,该模型利用CAE [19]来整合多组学数据,并通过将重构损失和对比损失统一在一个框架中进行预后预测。我们的模型不仅能够将样本的区分信息编码到提取的特征表示中,还能在嵌入空间中有效保持样本的聚类结构。与传统方法相比,这种方法结合了卷积神经网络和自编码器与对比学习的优势,能够处理高维数据并捕捉生物特征之间的相关性,从而获得更具表达力的潜在表示。此外,本研究利用患者的生存信息构建了单变量Cox比例风险回归模型,从潜在因子中筛选出具有统计意义的生存特征,并使用K-means算法将样本根据关键特征聚类成不同的生存亚组。
本研究在12个TCGA癌症组学数据集上应用了dmCLCAE,发现它在预测癌症预后方面表现出显著优势。dmCLCAE通过提取RNA表达、拷贝数变异、miRNA表达和DNA甲基化数据中的隐藏特征,捕捉到了传统线性无监督方法难以检测的非线性关系,这些关系可能反映了重要的生物过程。通过生存分析筛选的特征能够有效地评估癌症预后。与其他方法相比,dmCLCAE的预测结果更为一致和稳健,倾向于识别更多的生存特征。此外,利用dmCLCAE得到的聚类标签可以用于构建监督分类器,从而扩大其在生物学应用中的潜力。