整合多组学数据对癌症患者进行分型,对于提高患者的诊断、治疗和预后效果是至关重要的。传统的统计学方法,例如主成分分析等,对于处理高纬度的多组学数据集的能力有限。为有效整合多组学数据,提出了一种基于卷积神经网络的自编码器框架MCAEI (Multi-Omics Convolutional Autoen-coder Integration)。所提出的卷积自编码器设置了三个卷积层和反卷积层以及一个全连接自编码器来对多组学数据进行压缩和降维,将MCAEI应用于三种癌症并进行了分型工作。此外,所提出的方法与普通、稀疏、降噪自编码器进行比较,实验结果表明MCAEI方法更优。对于得到的最佳生存亚型,还进行了差异基因表达分析和富集通路分析。 Integrating multi-omics data for staging cancer patients is essential to improve patient diagnosis, treatment, and prognosis. However, traditional statistical methods, such as principal component analysis, face limitations when dealing with high-dimensional multi-omics datasets. To effectively integrate multi-omics data, a convolutional neural network-based autoencoder framework, MCAEI (Multi-omics Convolutional Autoencoder Integration), is proposed. The proposed convolutional au-toencoder is composed of three convolutional layers, three corresponding deconvolutional layers, and a fully connected autoencoder. It is utilized to compress and reduce the dimensionality of mul-ti-omics data. The MCAEI method is then applied to three types of cancer for subtype classification. In addition, the proposed method was compared with the normal, sparse, denoising autoencoder. The results demonstrated the superiority of the MCAEI method. For the best survival subtypes ob-tained, differential gene expression analysis and enrichment pathway analysis were also per-formed.
整合多组学数据对癌症患者进行分型,对于提高患者的诊断、治疗和预后效果是至关重要的。传统的统计学方法,例如主成分分析等,对于处理高纬度的多组学数据集的能力有限。为有效整合多组学数据,提出了一种基于卷积神经网络的自编码器框架MCAEI (Multi-Omics Convolutional Autoencoder Integration)。所提出的卷积自编码器设置了三个卷积层和反卷积层以及一个全连接自编码器来对多组学数据进行压缩和降维,将MCAEI应用于三种癌症并进行了分型工作。此外,所提出的方法与普通、稀疏、降噪自编码器进行比较,实验结果表明MCAEI方法更优。对于得到的最佳生存亚型,还进行了差异基因表达分析和富集通路分析。
多组学,癌症分型,深度学习,卷积自编码器,生存分析
Mengke Guo
Graduate School of Comprehensive Human Sciences, University of Tsukuba, Tsukuba, Japan
Received: Nov. 25th, 2023; accepted: Dec. 19th, 2023; published: Dec. 28th, 2023
Integrating multi-omics data for staging cancer patients is essential to improve patient diagnosis, treatment, and prognosis. However, traditional statistical methods, such as principal component analysis, face limitations when dealing with high-dimensional multi-omics datasets. To effectively integrate multi-omics data, a convolutional neural network-based autoencoder framework, MCAEI (Multi-omics Convolutional Autoencoder Integration), is proposed. The proposed convolutional autoencoder is composed of three convolutional layers, three corresponding deconvolutional layers, and a fully connected autoencoder. It is utilized to compress and reduce the dimensionality of multi-omics data. The MCAEI method is then applied to three types of cancer for subtype classification. In addition, the proposed method was compared with the normal, sparse, denoising autoencoder. The results demonstrated the superiority of the MCAEI method. For the best survival subtypes obtained, differential gene expression analysis and enrichment pathway analysis were also performed.
Keywords:Multi-Omics, Cancer Subtyping, Deep Learning, Convolutional Autoencoder, Survival Analysis
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
癌症是全球范围内造成死亡人数最多的疾病之一,可以发生在人体的各种组织和器官中。其特点是细胞不受控制的增长,能够通过人体的多个组织传播或增殖,并伴随着细胞层面的分子改变 [
目前很多方法已被设计,使用多组学数据来识别癌症亚型。在早期,主成分分析和因子分析等传统统计学方法被用来整合多组学数据。例如,iCluster算法 [
本研究结合RNA表达、miRNA表达、拷贝数变异和DNA甲基化四组学数据,提出了一种基于卷积神经网络(Convolutional Neural Network, CNN)的卷积自编码器(Convolutional Autoencoder, CAE)框架MCAEI。采用多组学数据具有更全面地解释复杂的生物学机制和提高分型性能的优势。无论是变分自编码器还是稀疏自编码器,其本质都是在普通自编码器的基础之上引入概率模型或稀疏性约束,可以视为自编码器的特殊形式。而CAE使用了卷积层代替了原来的全连接编码层,卷积层通过在输入数据上滑动滤波器来逐步提取更加抽象的特征表示。相比较于普通自编码器能够更好的处理具有空间结构的数据,并提取更加抽象的特征;具有参数共享、稀疏连接和平移不变性等优点。本文采用一种无监督的学习模式,使用MCAEI框架分别对3种癌症的多组学数据进行特征提取,对具有新特征的样本使用K-means聚类分析,并利用生存分析模型来评估聚类效果。最后,还将我们提出的方法分别与普通、稀疏、降噪自编码器进行比较。结果表明,MCAEI在3个癌症数据集上聚类效果的稳定性更好,能够识别出显著生存差异的癌症亚组,特别是在肾上腺皮质癌数据集上取得了最好的效果。
本文所使用的数据为癌症基因组图谱(TCGA)平台上肾上腺皮质癌(Adrenocortical Cancer, ACC)、乳腺癌(Breast Cancer, BRCA)、肉瘤癌(Sarcoma, SARC)的数据集。每个数据集都包含样本的生存信息(生存状态、生存时间)和四种类型的组学数据(RNA表达、miRNA表达、拷贝数变异和DNA甲基化),见表1。
Cancer | RNA-Seq | miRNA-Seq | CNV | DNA Methylation | Survival |
---|---|---|---|---|---|
ACC | 79 | 79 | 90 | 80 | 92 |
BRCA | 1218 | 832 | 1080 | 888 | 1236 |
SARC | 265 | 260 | 257 | 269 | 271 |
表1. 三种类型癌症的不同组学和生存信息数据的样本量
所进行的数据处理过程如下:
1) 将不同组学以及生存信息的样本数据取交集;
2) 删除缺失值比例超过20%的特征数据;
3) 使用Python中的fillna函数填充DNA甲基化特征中的缺失值 [
4) 删除缺失生存数据的样本;
5) 使用一个基因方面的标准差统计量(Gene-Wise Standard Deviation) [
6) 对所有数据进行最大最小归一化;
7) 根据皮尔逊相关系数对每个组学内的特征进行排序 [
卷积自编码器是一种基于卷积神经网络(CNN)的结构,通常由输入层、卷积层(Convolutional Layers)、扁平化层(Flatten Layers)、反卷积层(Transposed Convolutional Layers)和输出层组成。本文所提出的MCAEI框架设置了三个卷积层对输入数据进行处理,并将最后一个卷积层扁平化以获取一个高维的长向量;然后,构建了一个具有中间隐藏层的全连接层;最后,通过对完全连接层的输出进行多步反卷积操作,对输入数据进行了重构。具体工作流程如图1所示。
图1. 积自编码器结构图
一个传统的卷积自编码器由编码器 f W ( ⋅ ) 和解码器 g U ( ⋅ ) 两部分组成。它的目的是通过最小化所有样本数据的输入和输出之间的均方误差(MSE)为每一个输入样本编码。
min W , U 1 n ∑ i = 1 n ‖ g U ( f W ( x i ) ) − x i ‖ 2 2 (1)
对卷积自编码器:
f W ( x ) = σ ( W x ) ≡ h g U ( h ) = σ ( U h ) (2)
其中x和h是向量, σ 是激活函数(例如ReLU型)。在本文中,自编码器堆叠了三个卷积层,并将最后一个卷积层中的单元扁平化形成一个向量。添加了线性整流函数 [
f ( x ) = max ( 0 , x ) (3)
本文采用了Python语言中的深度学习框架Keras编写了卷积自编码器,并将隐藏层中学习到的压缩特征作为样本的新表示。
所构建的卷积自编码器的卷积层1、2、3分别设置32、64和128的过滤器;根据自编码器损失函数的变化情况,将训练轮次设置为500轮;优化器采用了Adam优化算法 [
癌症 类型 | 聚类 簇数 | 普通自编码器AE | 稀疏自编码器SAE | 降噪自编码器DAE | 卷积自编码器CAE | ||||
---|---|---|---|---|---|---|---|---|---|
Sil | p | Sil | p | Sil | p | Sil | p | ||
ACC | 2 | 0.2206 | 1.12e−08 | 0.7532 | 0.71943 | 0.3386 | 0.0002797 | 0.4289 | 6.849e−05 |
3 | 0.1965 | 1.73e−05 | 0.6112 | 0.00055 | 0.2518 | 0.0087682 | 0.3406 | 5.38e−07 | |
4 | 0.2098 | 0.000266 | 0.1179 | 0.00466 | 0.2795 | 0.0001856 | 0.2607 | 2.47e−06 | |
5 | 0.2010 | 0.001023 | 0.1273 | 0.00195 | 0.2612 | 0.0178166 | 0.2211 | 2.40e−06 | |
BRCA | 2 | 0.1553 | 0.402708 | 0.3631 | 0.578499 | 0.5462 | 0.106165 | 0.2054 | 0.013001 |
3 | 0.1322 | 0.016109 | 0.4541 | 0.334024 | 0.5570 | 0.033567 | 0.1390 | 0.001876 | |
4 | 0.1356 | 0.021091 | 0.4862 | 0.540939 | 0.4884 | 0.096487 | 0.1051 | 0.00368 | |
5 | 0.1285 | 0.007788 | 0.5374 | 0.686412 | 0.4771 | 0.19214 | 0.1111 | 0.002070 | |
SARC | 2 | 0.1603 | 0.642377 | 0.3627 | 0.07054 | 0.8859 | 0.1200695 | 0.2368 | 0.0796172 |
3 | 0.1772 | 0.002138 | 0.2377 | 0.11756 | 0.796 | 0.0195443 | 0.2577 | 0.009369 | |
4 | 0.1762 | 0.00905 | 0.2299 | 0.62367 | 0.7132 | 0.0787238 | 0.2143 | 0.0095162 | |
5 | 0.1745 | 0.001281 | 0.219 | 0.65279 | 0.5708 | 0.0151780 | 0.2172 | 0.0190931 |
表2. 四种自编编码器、三种类型癌症分型结果对比
并且本文还将所提出的卷积自编码器与普通、稀疏、降噪自编码器进行了对比,分别计算了3种癌症对应下的轮廓系数和对数秩检验p值,结果如表2所示。对于普通自编码器将隐藏层的节点数分别设置为500、100、500,输出为一个含100个压缩特征的矩阵,训练批次设置为100。对于稀疏自编码器,模型通过引入稀疏性约束来促使编码器学习到更加稀疏的特征,所以需要更多的训练轮次来达到预期的效果。在本文中,设置训练轮次为1000轮,KL散度惩罚项参数为0.01,学习率0.001。而降噪自编码器设置训练轮次为500轮,噪声系数为0.2。对稀疏与降噪自编码器设置相同的隐藏层节点数100、50、100,输出为一个含50个压缩特征的矩阵。
根据分型所得到的轮廓系数和对数秩检验p值结果可以看出,所提出的MCAEI框架在ACC数据集上获得了最好的效果。其中聚类簇数为3时,得到了最低的p值5.3819e-07。由于本文所采用的方法是直接将自编码器所得到的压缩特征进行聚类分析,而不后续再进行COX生存特征选择,这可以实现在缺乏临床生存数据的情况下也能得到很好的分型效果。本文还计算了ACC数据使用普通自编码器并进行COX生存特征选择的情况下,聚类簇数为3时,轮廓系数为0.2360529,p值为4.43744e−05。在BRCA及SARC的数据集上,对于普通自编码器聚类簇数为2时p值很高,并且轮廓系数处于较低范围;对于稀疏自编码器,聚类所得到的轮廓系数虽然较高,但是值均处于较高水平,没有通过对数秩检验;对于降噪自编码器,在SARC数据集上表现不错,得到了较高的轮廓系数和较低的p值,但是在BRCA数据集聚类簇数为2、5时没有通过对数秩检验。本文所提出的卷积自编码器,在不经过COX生存特征选择的情况下,在三个数据集上均获得了较低的p值,并获得了更好的聚类效果。
对于3种癌症,使用本文所提出的框架通过聚类得到最佳的预后亚型。p值最低时,3种癌症的最佳聚类簇数均为3。在最佳聚类簇数下绘制了每种亚型的Kaplan-Meier生存曲线,如图2所示。
图2. 种癌症的Kaplan-Meier生存曲线
对于MCAEI框架的差异表达分析,以肾上腺皮质癌ACC为例展开说明。由于对ACC数据进行聚类,簇数为2时获得最高的轮廓系数,故本文将患者数据分为两组(即高风险组与低风险组),使用R语言中的limma软件包进行差异基因表达分析 [
其中C1orf88基因已被证明与ACC的癌症预后有关 [
图3. 前30个基因的差异基因表达热图
根据得到的差异基因,本文采用R语言中的clusterProfiler软件包进行GO (gene ontology)富集通路分析 [
针对癌症分型方法,本研究提出了一种基于多组学数据和卷积神经网络的自编码器MCAEI框架。该卷积自编码器通过设置了三个卷积层和一个扁平化层来提取对组学数据的压缩特征。所提出的方法能够对3种类型的癌症识别出不同的生存亚型。为了评价本方法的有效性,将所提出的卷积自编码器与普通、稀疏、降噪自编码器进行对比。结果表明,本文所提出的MCAEI框架比其他方法获得了更低的p值和更高的轮廓系数得分。针对癌症分型所得到的结果,本文还进行了差异基因表达分析和富集通路分析,找到了最显著的前30个基因和三种基因本体,这表明了根据本方法的分型结果所识别出的基因,能够进行有效的生物学解释。目前本文的方法仅在3个癌症数据集上进行了测试,未来的工作将使用该方法在更多的癌症数据集上进行测试并对比不同组学数据的效果。
郭梦柯. 多组学数据和卷积自编码器的癌症分型算法Cancer Subtyping Algorithm Using Multi-Omics Data and Convolutional Autoencoders[J]. 应用数学进展, 2023, 12(12): 5210-5217. https://doi.org/10.12677/AAM.2023.1212512
https://doi.org/10.1016/j.semcancer.2015.03.008
https://doi.org/10.1016/j.cell.2018.02.037
https://doi.org/10.1038/nrc3721
https://doi.org/10.1016/bs.adgen.2015.11.004
https://doi.org/10.3389/fgene.2019.00236
https://doi.org/10.1093/bioinformatics/btp543
https://doi.org/10.15252/msb.20178124
https://doi.org/10.1038/nature14539
https://doi.org/10.1016/j.compbiomed.2022.105832
https://doi.org/10.1016/j.compbiolchem.2023.107906
https://doi.org/10.3389/fgene.2022.1090394
https://doi.org/10.1093/bioinformatics/17.6.520
https://doi.org/10.1186/s12859-015-0857-9
https://doi.org/10.1093/bioinformatics/btaa542
https://doi.org/10.1093/nar/gkv007
https://doi.org/10.7150/jca.40237
https://doi.org/10.3390/cancers14112805
https://doi.org/10.1177/2050313X19883770
https://journals.sagepub.com/doi/epub/10.1177/2050313X19883770
https://doi.org/10.1093/nar/gkh036
https://doi.org/10.1507/endocrj1954.32.17
https://doi.org/10.1111/jvim.12528