Integration of Multi-Omics Data and Prognostic Prediction Model Construction Based on Deep Multi-View Contrastive Learning Methods
In cancer research, accurately identifying cancer subtypes and assessing patient prognosis are crucial for developing optimized treatment strategies. The vast amount of multi-omics data generated by high-throughput sequencing technologies provides valuable resources for cancer prognosis studies. Deep learning methods can effectively integrate these data to accurately identify more cancer subtypes. In this study, we analyzed multi-omics datasets from 12 types of cancer and used them as input for our model. We proposed a deep multi-view contrastive learning model based on a convolutional autoencoder (dmCLCAE), designed to predict survival-related cancer subtypes using multi-omics data. To validate the model’s performance, we compared it with the Multi-Omics Factor Analysis v2 (MOFA+) and prognostic model based on a convolutional autoencoder (ProgCAE) in classifying various cancer types. The results showed that dmCLCAE demonstrated a significant advantage in distinguishing different survival subtypes and exhibited superior consistency in predictions.
Multi-Omics Data
在癌症研究中,确定癌症亚型和估计患者预后至关重要
本文提出了一种基于卷积自编码器的深度多视图对比学习模型(dmCLCAE),该模型利用CAE
近年来,生物组学数据库(如基因组、转录组、蛋白组、代谢组等)的数据越来越多,内容越来越全面。这些数据库收集和整理了大量的生物学信息。研究人员越来越重视将不同类型的组学数据结合起来进行分析。这种整合的趋势使得研究人员能够从多个层面对癌症进行更全面和深入的理解。通过整合不同的组学数据,科学家能够更准确地对不同类型的癌症进行分类。这有助于识别出癌症的不同亚型,从而为个性化治疗提供依据。当前,主要通过基因芯片和下一代测序技术来获取癌症相关的生物组学数据。基因芯片技术可以同时检测大量基因的表达水平,而下一代测序技术则能够对基因组进行高通量、精确的测序。为了有效利用这些海量的组学数据,科学界已经建立了许多公共数据库。这些数据库汇总了大量的多组学数据,使研究人员能够方便地获取和分析这些数据,从而推动癌症研究的发展。
本文的数据来源于癌症基因组计划——The Cancer Genome Atlas (TCGA)。为了深入研究癌症的分子机制及其生物标志物,本文从TCGA数据中心下载了12种癌症的多组学数据集。对于其中10种癌症,我们获取了四种主要组学类型的数据:RNA测序(RNA-Seq)、DNA甲基化、拷贝数变异(CNV)以及miRNA测序(miRNA-Seq)。而对于剩余的两种癌症类型——肺癌和胶质母细胞瘤,由于数据集中缺少miRNA-Seq信息,我们仅收集了RNA-Seq、DNA甲基化和CNV三种组学数据。此外,为了更全面地进行不同癌症类型的生存分析和预后评估,本文还下载了每种癌症患者的生存信息。
Argelaguet等人开发的多组学因子分析算法(MOFA+)来整合和分析多组学数据。MOFA+通过将输入的数据矩阵分解为因子矩阵和权重矩阵,从而学习到输入数据的低维表示,捕捉不同组学数据中的共同和特定特征,便于后续的下游分析。具体而言,MOFA+处理 维的M个数据矩阵 ,其中N表示样本数, 表示第m个数据矩阵的特征数。MOFA+通过以下公式分解这些数据矩阵:
其中,Z为 的因子矩阵,K为因子数; 为第m个数据矩阵的权重矩阵,尺寸为 ; 为噪声项,代表特定于每个矩阵的误差或噪声。MOFA+在概率贝叶斯框架中构建,所有未观测到的变量都被赋予先验分布。因子矩阵Z采用标准正态先验分布 ,权重矩阵 使用稀疏先验分布,以使得权重矩阵中的大多数元素为零,从而实现特征选择。噪声项 也被赋予相应的先验分布,以控制其大小和影响。
Liu等人提出来了一种基于卷积自动编码器的新型深度学习模型(ProgCAE)。该方法能够高效进行表征学习和数据整合,有效捕捉不同组学数据之间的复杂关系。该模型首先通过卷积自动编码器整合多组学数据集,并将其转化为潜在表示。随后,利用潜在表示构建单变量Cox比例风险回归模型,以筛选出与患者生存显著相关的特征。通过这一过程,识别出对生存具有重要影响的特征。接着,利用这些特征对患者进行聚类和分类。自编码器是一种神经网络模型,能够基于输入数据学习有效的编码方式。其结构如
编码器通过一系列非线性变换和特征提取将输入数据映射到隐藏层,而解码器则通过类似的方式将隐藏层的表示重构回原始输入数据。对于输入x,隐藏层值z为x的编码,即:
自编码器的输出值为
,
其中
为激活函数,
,
,
,
为网络参数,通过最小化重构损失训练得到。通过这种压缩和重建过程,自编码器能够学习到有效的数据表示,用于数据降维、特征提取和数据压缩等应用。卷积自编码器(Convolutional Autoencoder, CAE)是一种结合了卷积神经网络(Convolutional Neural Network, CNN)和自编码器(Autoencoder, AE)优势的模型。与传统神经网络相比,卷积神经网络能够利用卷积核从一组高度相关的组学特征中学习信息,能够有效捕捉复杂生物信息数据中的局部模式和特征,这有助于提高自编码器的降维效果。所提到的卷积自编码器框架如
处理后的多组学数据通过卷积自编码器进行处理。数据经过多步骤的卷积操作后展平为高维长向量,接着通过全连接层提取潜在因子,并最终通过反卷积操作重构数据。通过重构误差来更新编码器 和解码器 的参数
.
其中n是数据集中的样本数, 是第i个样本。
使用自编码器
,
充分利用多组学数据之间的联系,通过迭代将一个组学作为锚点,并从其他组学中枚举正样本对和负样本对。给出 对比损失为
,
其中 是温度参数用于控制控制模型对相似性和差异性的敏感程度。
定义对比学习损失为
.
本文最终提出的模型损失函数表示为
.
通过使用卷积自编码器,可以将各种组学数据降维到一个预定义的低维空间,从而获得简化且信息丰富的数据表示形式。这种低维表示不仅保留了原始数据中的关键信息,还降低了数据的复杂性,便于后续的特征选择。然后,本文构建单变量Cox-PH模型来评估单个因子对生存时间的影响。通过对每个因子分别建模并根据模型生成的P值进行筛选,可以识别出与患者生存显著相关的变量。
本研究收集了十二种癌症患者的多组学数据集,以及生存时间和存活状态数据,用以评估dmCLCAE的效果。由于这些患者样本缺乏标签,本文通过聚类方法将患者分组,以进行预后分型。为了综合评估模型的聚类准确性和生存预测效果,本文计算了轮廓系数和对数秩检验P值两个指标。首先,轮廓系数是一种评估聚类效果的方法,取值介于[−1, 1]之间,值越大表示聚类效果越好。我们利用Cox-PH模型选择的特征进行K-means聚类,并在不同的K值下计算轮廓系数。其次,对数秩检验是一种比较多个生存曲线差异的常用方法,一般情况下,P值小于0.05被认为具有统计显著性。首先,
癌症 | 最优亚型数 | 2 | 3 | 4 | 5 | ||||
P值 | 轮廓系数 | P值 | 轮廓系数 | P值 | 轮廓系数 | P值 | 轮廓系数 | ||
ACC | 2 | 1.00E−07 | 0.5207025 | 3.00E−06 | 0.39596155 | 2.05E−06 | 0.350057 | 7.11E−06 | 0.2946729 |
BLCA | 4 | 0.002309084 | 0.30950302 | 0.000108597 | 0.23487175 | 8.56E−05 | 0.2228461 | 4.90E−05 | 0.20080127 |
BRCA | 4 | 0.026639243 | 0.5462436 | 0.012729878 | 0.52440363 | 0.006938333 | 0.52509767 | 0.234111699 | 0.52573264 |
COAD | 2 | 6.34E−05 | 0.30648416 | 0.001437175 | 0.25758713 | 0.000698961 | 0.25063124 | 0.000338717 | 0.22908437 |
GBM | 4 | 0.001388466 | 0.38981345 | 0.000114685 | 0.3051706 | 4.66E−05 | 0.33175394 | 0.008657981 | 0.3039649 |
LUAD | 4 | 0.000389779 | 0.2780115 | 2.98E−05 | 0.18462536 | 1.19E−06 | 0.17062436 | 0.000408619 | 0.13294406 |
LUNG | 4 | 0.609864805 | 0.28362718 | 0.00958008 | 0.28988472 | 0.000263209 | 0.26026478 | 0.001169444 | 0.2337012 |
LUSC | 2 | 1.90E−05 | 0.3579545 | 7.71E−05 | 0.23511612 | 0.001282313 | 0.22646917 | 0.002225513 | 0.19889073 |
PRAD | 2 | 0.02430841 | 0.39426908 | 0.031824376 | 0.41576302 | 0.237154723 | 0.36427942 | 0.373457796 | 0.37346262 |
SARC | 3 | 0.004447248 | 0.28042555 | 0.001316286 | 0.2588831 | 0.003227221 | 0.27802154 | 0.007532482 | 0.2612162 |
STAD | 2 | 0.000308817 | 0.3048487 | 0.000386375 | 0.29102576 | 0.000215493 | 0.2482764 | 0.000832402 | 0.23739746 |
THCA | 2 | 0.000368239 | 0.33038157 | 0.007984258 | 0.2612367 | 0.004741932 | 0.19961411 | 0.005716601 | 0.21560447 |
为了更直观地评估聚类效果,本文引入了Kaplan-Meier生存曲线(简称K-M曲线)。K-M曲线是一种在生存分析中广泛应用的非参数方法,用于估算在特定时间点上的生存概率。该方法适用于观察性数据,即研究对象在不同时间点进行观察,但不一定每个对象都被观测到整个研究期间。由于K-M方法不依赖于对生存时间分布的假设,因此适用于各种生存时间分布情况。曲线上的每个阶梯表示事件(如死亡或复发)发生的概率,常用于比较不同治疗组的生存情况、评估患者预后和研究预后因素的影响。它为理解患者群体的生存状况提供了一种直观的方式,并可以估计中位生存时间和特定时间点的生存率。
为了比较所提出模型的优越性,本文还应用了MOFA+和ProgCAE模型对不同类型的癌症进行分类。以dmCLCAE选择的最佳聚类数目为基础,我们通过MOFA+进行了聚类分析。在对12种不同类型的癌症进行分析后,发现MOFA+在ACC、GBM和LUAD三种癌症类型中得到的生存亚型存在显著差异(P值小于0.05)。相比之下,ProgCAE在不同聚类数目下的表现来看,其在BRCA癌症患者和PRAD癌症患者的K = 2和K = 3时差异不显著(P值大于0.05)。
图3. dmCLCAE的12种癌症的Kalpan-Meier曲线
为了比较不同模型在预后价值上的表现,并评估DmCLCAE和ProgCAE在聚类效果上的差异,本文通过Cox-PH模型计算了一致性指数(C-index)。此外,为了提高结果的稳健性,我们采用了留出法和5折交叉验证。
癌症 | dmCLCAE | ProgCAE |
ACC | 0.7573 | 0.7681 |
BLCA | 0.6089 | 0.6333 |
BRCA | 0.5601 | 0.5179 |
COAD | 0.5707 | 0.5580 |
GBM | 0.6633 | 0.7272 |
LUAD | 0.6396 | 0.6193 |
LUNG | 0.5402 | 0.5221 |
LUSC | 0.5460 | 0.5023 |
PRAD | 0.2644 | 0.4761 |
SARC | 0.7097 | 0.6838 |
STAD | 0.5567 | 0.5369 |
THCA | 0.7176 | 0.6137 |
因此,综合上述结果DmCLCAE在区分不同生存亚型方面,结果显示出更为显著的差异,并且在预测一致性方面也表现更佳。如
癌症是一种恶性疾病,在研究中准确地识别其亚型和预测患者的预后至关重要。伴随着大量组学数据的产生,研究人员获得了宝贵的资源。多组学数据的整合有助于减少来自不同平台的噪声,从而获得一致的生物信号,并揭示关键的生物学机制。然而,处理多组学数据中的高维生物数据仍是一个重大挑战,特别是当分析涉及数以千计的单核苷酸多态性、基因和蛋白质时,这一问题尤为突出。
为了应对多组学数据整合所遇到的挑战,本研究提出了一种基于卷积自编码器的深度多视图对比学习模型——dmCLCAE,该模型利用CAE
本研究在12个TCGA癌症组学数据集上应用了dmCLCAE,发现它在预测癌症预后方面表现出显著优势。dmCLCAE通过提取RNA表达、拷贝数变异、miRNA表达和DNA甲基化数据中的隐藏特征,捕捉到了传统线性无监督方法难以检测的非线性关系,这些关系可能反映了重要的生物过程。通过生存分析筛选的特征能够有效地评估癌症预后。与其他方法相比,dmCLCAE的预测结果更为一致和稳健,倾向于识别更多的生存特征。此外,利用dmCLCAE得到的聚类标签可以用于构建监督分类器,从而扩大其在生物学应用中的潜力。