Differential Analysis and Visualization of Single-Cell Based on Multiple Dimensionality Reduction Algorithms
With the advancement of biological gene sequencing technologies, single-cell RNA sequencing (scRNA-seq) has played a significant role in studying cell heterogeneity. The transcriptomic analysis of mononuclear cells provides rich gene expression data. To analyze the underlying patterns of these high-dimensional data, this study applies multiple dimensionality reduction algorithms, including Principal Component Analysis (PCA), Uniform Manifold Approximation and Projection (UMAP), and t-Distributed Stochastic Neighbor Embedding (t-SNE), to reveal the structural features of single-cell gene expression. These dimensionality reduction methods map high-dimensional data to lower-dimensional spaces, helping to uncover the distribution of subpopulations, dynamic changes, and clustering features of differentially expressed genes. Through visualization, this study explores the inherent patterns of gene expression and provides new insights into the applications of single-cell data in disease diagnosis, treatment, and precision medicine. This paper emphasizes the central role of statistical methods in biological data analysis, particularly in the integration of dimensionality reduction and visualization techniques, offering strong support for future research.
Dimensionality Reduction Algorithms
近些年来,随着生物基因测序技术的快速发展,基因组学和转录组学研究进入了一个全新的时代,尤其是单细胞RNA测序(scRNA-seq)技术的应用,使得我们能够在单细胞维度下深入探索细胞异质性。基因测序技术
为克服现有这些挑战,统计学方法尤其是降维算法已成为现代生物数据分析的核心工具。降维技术通过将高维数据映射到低维空间,帮助研究人员发现潜在的模式和结构特征,从而揭示数据的内在规律。在单细胞转录组数据分析中,常用的降维算法包括主成分分析(PCA)
随着单细胞RNA测序技术的应用,基因表达数据为疾病机制研究和精准医疗提供了丰富的信息,然而这些数据通常具有高维度和复杂的结构,还需要通过统计方法对数据进行有效的降维和可视化,以便提取出有价值的生物学结论。本文基于PCA、UMAP和t-SNE等降维算法,对单细胞基因表达数据进行系统分析,重点探索这些统计方法在揭示单细胞数据中的亚群结构
主成分分析(Principal Component Analysis, PCA)是一种用于降维的无监督算法,因该算法不需要设置参数,所以便于理解和实现,广泛用于高维数据的分析和可视化。PCA的核心思想主要是通过线性变换,将高维数据投影到一个较低维度的子空间中,实现最大化数据方差并尽量减少信息损失。该算法首先计算数据每个特征的均值,使数据均值归一化,之后计算协方差矩阵并对协方差矩阵进行特征值分解,以得到特征值和特征向量,再之后进行降维,选择特征值较大的前几个主成分,将它们所对应的特征向量构成新特征空间的坐标轴,将原始数据投影到新特征空间中,从而实现降维。
假设首先有一个数据表达矩阵 ,其中每一行代表一个细胞样本,每一列代表一个基因特征,主成分分析算法主要分为以下步骤:
(1) 首先对数据进行中心化:
(2) 计算标准化数据的协方差矩阵:
(3) 对协方差矩阵C进行特征值分解,得到特征值和特征向量,特征值 和特征向量 满足方程: 。
(4) 选择最大的k个特征值对应的特征向量 ,将所有特征向量标准化后组成特征向量矩阵W。
(5) 将原始标准化数据投影到由前k个特征向量组成的矩阵W上得到降维后的数据矩阵 。
(6) 降维后的数据 包含了数据中方差最大的k个方向的信息,因此能够有效地表示数据的主要特征。
t-分布邻域嵌入(t-SNE, t-distributed Stochastic Neighbor Embedding)是一种非线性降维算法,特别适用于高维数据的可视化,这种方法主要是关注数据的局部结构,它由Laurens van der Maaten和Geoffrey Hinton在2008年提出。t-SNE目标是将高维数据映射到低维空间中,同时尽可能保留相似数据点之间的局部结构关系,通俗来说,使高维空间中相似的数据点在低维空间中靠得更近,使高维空间中相对不相似的数据点在低维空间中分布得更远。t-SNE需要将数据点之间的相似度转换为概率,原始空间中的相似度是由高斯联合概率表示,嵌入空间的相似度由“student-t分布”
假设有一个数据表达矩阵 ,其中每一行代表一个细胞样本,每一列代表一个基因特征,t-SNE算法主要分为以下步骤:
(1) 计算高维空间的相似度:对于每一对数据点 和 ,使用条件概率表示点在给定 时 出现的概率。定义为:
(1)
其中, 是 的高斯核宽度,可以动态调整以确保每个点的邻域包含一个固定数量的点(通过perplexity参数), 越大表示 和 越相似。
(2) 对称化概率矩阵:
(2)
其中n是数据点总数。
(3) 计算低维空间的相似度:在低维空间中,t-SNE通过自由度为1的学生t分布来计算数据点间的相似度,对于每一对低维空间的数据点 和 ,定义其相似度为:
(3)
其中, 和 是低维空间中的数据点, 越大表示 和 越相似。
(4) 最小化分布差异:t-SNE算法通过最小化高维空间分布 和低维空间分布 之间的差异来优化低维嵌入:
(4)
这里的C是基于Kullback-Leibler (KL)散度的目标函数,使用梯度下降优化C,不断调整低维点的位置 。
均匀流形逼近与投影(UMAP, Uniform Manifold Approximation and Projection)是一种现代的非线性降维方法,广泛应用于高维数据的降维和可视化。UMAP最早由Leland McInnes和John Healy在2018年提出,其基于流形学习(Manifold Learning)的理论,它继承了流形学习
UMAP的基本思想是:假设数据点所在的高维空间实际上是一个低维流形的高维嵌入,数据点的局部邻域关系反映了它们在低维空间中的关系,降维的目标是找到一个低维空间,使得数据在高维空间和低维空间中的局部结构尽可能一致。其基本流程包括:局部邻域建立、构建相似度图和优化嵌入空间三部分。首先是局部邻域建立,对每个数据点,UMAP首先通过计算其与其他数据点的距离来构建局部邻域,通常使用k近邻(KNN)
假设有一个数据表达矩阵 ,其中每一行代表一个细胞样本,每一列代表一个基因特征,UMAP算法主要分为以下步骤:
(1) 构建高维空间中的相似度图:相似度度量通常是基于距离度量(如欧氏距离)或基于核密度估计的概率模型。UMAP首先为每个数据点 定义一个局部邻域,通常使用k-近邻(KNN)或者半径邻域方法。对于高维数据每一对数据点 和 ,定义其相似度概率 ,可以通过以下公式来表示:
(5)
其中, 是高维空间中点的邻域大小,用来控制高维空间中邻居的密度,表示为 在其邻域点 上的平均距离
(2) 构建低维空间中的相似度图:低维空间中的相似度是通过学生t分布来度量的。学生t分布具有较重的尾部,有助于处理高维数据中的噪声和离群点。低维空间中的相似度 通过以下公式表示:
(6)
其中, 和 是低维空间中的数据点。
(3) 优化损失函数:UMAP通过最小化高维空间和低维空间中相似度分布之间的差异来优化低维嵌入。损失函数通过Kullback-Leibler散度(KL散度)来度量两个概率分布之间的差异:
(7)
和 是我们上述分别求得的高维空间和低维空间的相似度。
(4) 优化算法:UMAP就通过梯度下降算法
从10X Genomics单细胞测序技术平台(
通过基因质控指标来筛选细胞,质控指标有以下三种:(1) 每个细胞中检测到的基因数。低质量的细胞和空油滴只有少量基因,两个及以上的细胞会有异常的高基因数,这两类细胞需要被筛选。(2) 每个细胞中的UMI总数。本文设定的标准为过滤UMI数大于2500,小于200的细胞。(3) 线粒体基因组的reads比例。低质量或死细胞会有大百分比的线粒体基因组,使用PercentageFeatureSet函数来计数线粒体质控指标,本文设定的标准为过滤线粒体百分比大于5%的细胞。
MT是线粒体基因,通过
图2. 过滤之前的特征与特征间的相关性
图3. 过滤之后的特征与特征间的相关性
我们过滤UMI数大于2500,小于200的细胞和线粒体百分比大于5%的细胞重新查看过滤之后的特征与特征间的相关性,再次用小提琴图展示(如
我们每个细胞分别进行检测,所以要进行标准化,本文使用NormalizeData函数对上述处理的细胞数据进行归一化处理。
如果许多基因的表达在各个细胞之间表达是恒定的,那么要区分各个细胞就要使用变化差异大的基因,这就是高变基因,在细胞数据集中寻找高表达的基因特征,有助于找到单细胞数据集中的生物信号进行下游分析。使用VariableFeatures 函数提取高变基因,之后对高变基因进行展示绘图。
通过
使用ScaleData函数准换每个基因的表达值,使每个细胞的平均表达值为0,使细胞间方差为1,使每个基因具有相同的权重,有利于下一步分析。
可视化细胞与特征间的PCA有三种方式:(1) 使用VizDimLoadings函数,用于可视化与降维结果相关的基因,了解各个基因对主成分的贡献程度(如
为了克服在单细胞数据中在单个特征中的技术噪音,我们需要压缩数据集,并确定数据集的维数。JackStraw分析
使用UMAP和t-SNE算法对上述处理的细胞进行聚类。perplexity参数的选择对于聚类效果至关重要,perplexity参数影响局部和全局结构的平衡,较小的perplexity,更关注局部结构,容易导致小群体紧密聚集,较大的perplexity更关注全局结构,使不同类群更加分散。通常细胞数小于1000个perplexity参数选择5至20,1000个到5000个细胞perplexity参数选择20至50,大于5000个细胞perplexity参数选择30至100。由于本文数据超过了5000个,选择perplexity参数为30 (见
在使用UMAP和t-SNE算法对细胞进行聚类后,可以对部分免疫相关基因进行分析,观察其在聚类中的表达分布,如
对于聚类效果的评估,我们采用轮廓系数(Silhouette Score)、调整兰德指数(Adjusted Rand Index, ARI)、轮廓宽度(Within-cluster Sum of Squares, WCSS)、Dunn指数(Dunn Index)和稳定性指数(Jaccard Index)进行综合衡量,见
评价指标 |
轮廓系数 |
调整兰德指数 |
轮廓宽度 |
Dunn指数 |
稳定性指数 |
数值 |
0.42 |
0.72 |
1200 |
2.1 |
0.83 |
其中,轮廓系数为0.42,表明大部分样本在各自聚类中具有较好的相似性,同时与其他聚类有一定的分离度;调整兰德指数为0.72,说明聚类结果与真实类别较为一致;轮廓宽度(WCSS)为1200,表明类内数据紧密度较高,聚类效果较为理想;Dunn指数为2.1,反映不同聚类之间的边界清晰度较高;稳定性指数(Jaccard Index)为0.83,表明聚类结果在不同运行之间具有较高的稳定性。这些指标表明本次聚类效果较好,能够有效区分不同的细胞群体,同时保持较高的聚类稳定性和紧密性。
由
相关通路 |
相关细胞 |
重要通路 |
作用(或相关疾病) |
适应性免疫相关通路 |
Naive CD4 T, Memory CD4 T, CD8 T |
T细胞受体信号通路 |
介导T细胞活化和分化,调节免疫应答 |
CD8 T |
细胞毒性T细胞介导的细胞毒性 |
通过Fas-FasL和Perforin-Granzyme途径杀死靶细胞 |
|
B |
B细胞受体信号通路 |
介导B细胞活化,促进抗体生成 |
|
固有免疫相关通路 |
CD14+ Mono, FCGR3A+ Mono, NK, DC |
TLR信号通路 |
识别病原体PAMPs,激活先天免疫反应 |
NK |
NK细胞介导的细胞毒性 |
通过MHC识别异常细胞并杀伤 |
|
DC |
抗原处理和呈递 |
促进适应性免疫应答的启动 |
|
炎症与疾病相关通路 |
CD14+ Mono, FCGR3A+ Mono |
NLRP3炎性小体通路 |
炎症性疾病,如克罗恩病、类风湿性关节炎。 |
Platelet |
凝血系统 |
参与血栓形成,关联动脉粥样硬化和心血管疾病 |
|
T, B |
自身免疫通路 |
相关疾病包括系统性红斑狼疮(SLE)、多发性硬化(MS)。 |
我们使用基因集富集分析(GSEA)可以找到这些细胞相关的关键生物学通路,如