近年来,随着以单细胞转录组测序(Single-cell RNA sequencing, scRNA-seq)技术为重点的大规模生物学实验的兴起,研究人员可以在细胞水平上展开更加深入的研究。基于scRNA-seq技术的优势,尤其是其对研究细胞异质性的能力,越来越多的单细胞数据库涌现出来,为疾病的发生和治疗提供了研究基础,特别是对于复杂的癌症和当前难以完全解决的COVID-19问题。随着scRNA-seq技术的不断发展,单细胞数据库也在不断完善和扩大,涵盖越来越多的物种数据信息,同时提供多种分析功能,为单细胞研究提供了便利。本文回顾了目前广泛使用的单细胞数据库,并对其数据量和数据类型等做了概括总结。此外,我们还调查了研究人员在数据分析方面的使用情况,并得出了单细胞数据库建设的最新进展。最后,本文还针对目前单细胞数据库存在的局限性提出了一些改进建议。 In recent years, with the rise of large-scale biological experiments that focus on single-cell RNA se-quencing (scRNA-seq) technology, researchers can conduct more in-depth studies at the cellular level. Based on the advantages of scRNA-seq technology, particularly its ability to study cell hetero-geneity, an increasing number of single-cell databases have emerged, providing a research founda-tion for the occurrence and treatment of diseases, especially for complex cancers and the currently unsolved COVID-19 problem. As scRNA-seq technology continues to develop, single-cell databases are also constantly improving and expanding, covering more and more species data information, while providing multiple analysis functions, facilitating single-cell research. This article reviews currently widely used single-cell databases and summarizes their data volume and data types. In addition, we investigated the usage of researchers in data analysis and obtained the latest progress in the construction of single-cell databases. Finally, this article proposes some improvement sug-gestions for the limitations of current single-cell databases.
近年来,随着以单细胞转录组测序(Single-cell RNA sequencing, scRNA-seq)技术为重点的大规模生物学实验的兴起,研究人员可以在细胞水平上展开更加深入的研究。基于scRNA-seq技术的优势,尤其是其对研究细胞异质性的能力,越来越多的单细胞数据库涌现出来,为疾病的发生和治疗提供了研究基础,特别是对于复杂的癌症和当前难以完全解决的COVID-19问题。随着scRNA-seq技术的不断发展,单细胞数据库也在不断完善和扩大,涵盖越来越多的物种数据信息,同时提供多种分析功能,为单细胞研究提供了便利。本文回顾了目前广泛使用的单细胞数据库,并对其数据量和数据类型等做了概括总结。此外,我们还调查了研究人员在数据分析方面的使用情况,并得出了单细胞数据库建设的最新进展。最后,本文还针对目前单细胞数据库存在的局限性提出了一些改进建议。
scRNA-seq,数据库,单细胞分析,标记基因,COVID-19
Lingling Chen1, Feng Cheng1, Huan Hu1,2, Fei Xu1,2, Xiang Li1, Hai Lin2
1College of Physical Science and Technology, Xiamen University, Xiamen Fujian
2Wenzhou Institute, University of Chinese Academy of Sciences, Wenzhou Zhejiang
Received: Mar. 29th, 2023; accepted: May 15th, 2023; published: May 22nd, 2023
In recent years, with the rise of large-scale biological experiments that focus on single-cell RNA sequencing (scRNA-seq) technology, researchers can conduct more in-depth studies at the cellular level. Based on the advantages of scRNA-seq technology, particularly its ability to study cell heterogeneity, an increasing number of single-cell databases have emerged, providing a research foundation for the occurrence and treatment of diseases, especially for complex cancers and the currently unsolved COVID-19 problem. As scRNA-seq technology continues to develop, single-cell databases are also constantly improving and expanding, covering more and more species data information, while providing multiple analysis functions, facilitating single-cell research. This article reviews currently widely used single-cell databases and summarizes their data volume and data types. In addition, we investigated the usage of researchers in data analysis and obtained the latest progress in the construction of single-cell databases. Finally, this article proposes some improvement suggestions for the limitations of current single-cell databases.
Keywords:Single-Cell RNA Sequencing, Database, Single-Cell Analysis, Marker Gene, COVID-19
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
自从2009年单细胞转录组测序scRNA-seq (Single-cell RNA sequencing)技术被首次报道以来 [
随着scRNA-seq技术的发展,单细胞数据量呈爆发式增长。目前已经出现各式各样的数据库,覆盖不同物种、组织、细胞类型和健康状态等。对于长期困扰人类的癌症问题,癌症数据库成为科学家们的热门关注对象。癌症单细胞数据库提供丰富的基因表达数据和元数据,为癌症分子机制研究、靶向治疗研发和个性化医疗应用等领域提供有力支持。例如,CCLE (Cancer Cell Line Encyclopedia)数据库提供了单细胞水平的转录组数据 [
尽管scRNA-seq技术已经得到充分发展,但目前存在的单细胞数据库仍然不够全面,数据的收集及有效利用仍然是一个挑战。随着人们对分析技术的要求不断提高,现存数据库的分析功能也难以达到人们的要求。本文将对目前广大研究者常用的单细胞数据库及单细胞数据分析方法进行介绍。
随着scRNA-seq技术的广泛应用,scRNA-seq数据库已经得到大量积累,但目前鲜少有人对单细胞数据库的优劣做出评价。评价单细胞数据库的优劣应主要考虑以下几个方面:
1) 数据量和覆盖度。数据量和覆盖度是评估单细胞测序数据库质量的重要指标。数据量指的是数据库中可供检索的单细胞测序数据的总量,而覆盖度指的是数据集覆盖的细胞类型、组织类型、物种等方面的广泛程度。这两个指标可以共同反映数据库的数据资源丰富程度和实用性。
2) 数据库的分析功能。数据库的分析功能也是评估单细胞测序数据库质量的重要因素。数据库应该提供高效、准确和可重复的分析方法,以帮助研究人员从复杂的单细胞数据中提取有用的信息。
3) 数据更新频率及数据库的数据格式等。单细胞技术正在不断发展,新的单细胞数据集不断涌现,数据库的更新频率应该高,以便研究人员能够及时获得最新的数据。同时单细胞数据有多种格式,如10x Genomics、Drop-seq等,数据库应该提供多种格式的数据,以便研究人员可以使用他们自己的工具和分析流程进行数据分析。
总的来说,一个高质量的单细胞数据库应该具备覆盖度广的大规模的数据集、易于使用的分析工具、高更新频率、可靠的数据来源信息和多种数据格式。
随着单细胞技术的发展,单细胞测序数据的规模和数量已经大幅度增加,这也促进了单细胞数据库的发展和壮大。单细胞测序数据库中的数据量越大、覆盖度越广就能够更全面地了解细胞的多样性、功能和相互作用。这对于理解生物学和研究疾病至关重要。因此,有必要调查单细胞测序数据库的数据量和覆盖度情况。
单细胞数据库包含多种类型。例如,SCovid19数据库是一个针对新冠病毒(COVID-19)感染的scRNA-seq数据库 [
数据库 | 类型 | 物种 | 数据集量(个) | 组织种类(种) | 细胞量(个) | 细胞种类(种) |
---|---|---|---|---|---|---|
SCovid | COVID-19疾病 | 人类 | 21 | 10 | 1,042,227 | / |
CancerSEA | 25种癌症 | 人类 | 49 | / | 41,900 | / |
SC2disease | 25种疾病 | 人类 | / | 29 | / | 341 |
CellMarker2.0 | 标记基因 | 人类、小鼠 | / | 656 | / | 2578 |
Expression Atlas [
|
综合 | 人类、小鼠等 18个物种 | / | / | 590万 | / |
HCA | 综合 | 人类 | 200 | 80 | 1990万 | 200 |
CancerSCEM [
|
20种人类癌症 | 人类 | 208 | / | / | / |
Cellatlas [
|
综合 | 小鼠等15个物种 | / | / | 260万 | / |
HTCA [
|
综合 | 人类 | 3000 | / | 230万 | / |
HUSCH [
|
综合 | 人类 | 185 | 45 | 300万 | 270 |
ABC portal [
|
血液/免疫系统 | 人类、小鼠 | 198 | / | / | / |
MCA [
|
综合 | 小鼠 | / | 56 | / | 160 |
Tabula Muris [
|
综合 | 小鼠 | / | 20 | 10万 | / |
Allen Cell Types Database [
|
人类、小鼠 | / | / | 27,000 | 60 | |
The Human BioMolecular Atlas Program (HuBMAP) [
|
综合 | 人类 | 1480 | 31 | / | / |
Tabula Muris Senis [
|
综合 | 老年小鼠 | / | 21 | 151,882 | 60 |
PanglaoDB | 综合 | 人类、小鼠 | / | 258 | 559万 | / |
scRNASeqDB [
|
综合 | 人类 | 200 | / | / | 8,910 |
CellBlast | 综合 | 人类、小鼠、 斑马鱼等 | 168 | / | / | / |
表1. 数据库数据量
其中,“/”代表原数据库未统计的内容或者本文未收集到相关内容。
由上表可以看出目前单细胞数据库大多侧重点不同且单个数据库数据不够全面,例如,CancerSEA只收集人类癌症的信息;SCovid数据库仅限于新冠病毒感染下的单细胞转录组数据,不适用于其他疾病或正常细胞的单细胞RNA测序数据,其数据量相对较少,它不能完全覆盖病毒感染下的所有细胞类型和状态;CellMarker2.0专门研究人类和小鼠的标记基因,但并不是所有细胞类型都有明确的标记基因。该数据库存在部分细胞类型的标记基因缺失的情况。虽然随着单细胞数据急剧增加,非洲爪蟾、斑马鱼胚胎以及秀丽隐杆线虫等细胞数据已经进入我们的视野,丰富了我们对不同物种细胞层次结构的认识,但这些物种的数据资料稀缺,这对相关单细胞研究造成了阻碍。此外,细胞标记基因对细胞注释意义重大,例如PanglaoDB和CancerSEA的数据库已经从可用的文献信息中获取不同细胞类型的基因用于细胞簇的注释 [
单细胞转录组的数据分析主要分成预处理和下游分析,分析流程如图1所示。预处理过程中原始测序数据经过处理得到分子计数矩阵,计数矩阵中的每个数值代表细胞中一种mRNA分子被成功捕获、逆转录和测序的数量 [
图1. 单细胞分析经典流程
为了减轻下游分析工具的计算负担、减少数据中的噪声并方便数据可视化,预处理过程中通常使用多种方法来对数据集进行降维。降维的第一步通常是特征选择,即对数据集基因进行过滤保留对数据的变异性具有信息贡献的基因。特征选择后,可以通过专用的降维算法进一步对单细胞表达矩阵进行降维。常用的降维方法包括主成分分析PCA (Principal component analysis)和diffusion maps等。scRNA-seq数据可视化的最常见的降维方法是t-SNE (t-distributed stochastic neighbour embedding)和UMAP (Uniform Manifold Approximation and Projection) [
经过预处理后,下游分析的方法指应用于生物学发现并描述潜在的生物学系统的方法,可分为细胞水平和基因水平的方法。聚类分析是将细胞聚类成簇,通常是任何单细胞分析的第一个中间结果,使我们可以推断成员细胞的身份。聚类方法主要包括K-means,Hierarchical clustering,Density-based clustering和Graph clustering等 [
基因层面的分析会提供更多的信息,如差异表达分析和基因调控网络推断,不是表面上研究细胞异质性,而是基于异质性探索基因表达相关的原因。scRNA-seq数据的差异表达分析是指通过对不同条件下的scRNA-seq数据进行比较,识别在不同条件下表达差异显著的基因。差异表达分析可以通过比较不同发育时期或不同组织中的scRNA-seq数据,发现在不同发育阶段或不同组织中表达差异显著的基因。差异表达分析可以揭示细胞的分化状态和发育轨迹并发现调控细胞功能的关键基因,还能为转录因子分析及细胞间相互作用分析等提供基础数据。基因集变异分析是另一种基于表达谱的分析方法,可用于评估某个基因集在样本中的相对富集程度。在scRNA-seq中,基因集变异分析可以帮助确定不同细胞类型之间的基因表达差异以及不同通路的活性水平。GO/KEGG enrichment分析用于寻找在单细胞水平上特定基因集合的富集情况。在进行GO/KEGG enrichment分析时,需要将感兴趣的基因集合与GO/KEGG数据库中的注释信息进行比对,然后计算基因集合在每个功能分类或通路中的富集程度。常用的计算方法包括Fisher’s Exact Test、Hypergeometric Test和GSEA (Gene Set Enrichment Analysis)等 [
单细胞分析的流程是多个独立开发的工具的集合,这些工具是构建分析流程的基础。随着scRNA-seq的发展已经开发了诸多平台,scRNA-seq分析的工具不断更新和发展。Cell Ranger是由10x Genomics开发的流程化单细胞RNA测序分析工具 [
综上所述,优质的单细胞数据库应该提供完整的数据处理流程和可靠的分析工具,它主要包括:
1) 数据预处理:对原始数据进行质量控制、过滤、去除低质量细胞、去除双峰分布的细胞、批次效应校正等预处理步骤,以保证后续分析的准确性。
2) 细胞类型识别和分类:使用聚类算法对细胞进行分组,识别出不同的细胞类型,并进行分型分析。
3) 基因表达量分析:计算单个基因在每个细胞中的表达量,并进行基因的差异表达分析,以发现不同细胞类型之间的转录差异。
4) 细胞亚型分析:利用细胞的基因表达数据进行亚型分析,发现不同的亚型,并对其进行功能和表型分析。
5) 基因共表达网络分析:使用基因表达数据构建基因共表达网络,识别出共表达模块,并对其进行生物学功能和代谢通路分析,以发现新的生物学模块和代谢通路。
6) 细胞状态识别:通过对不同状态细胞的转录数据进行比较,识别细胞的不同状态,并对其进行功能和表型分析。
7) 数据可视化:通过可视化技术将数据可视化为热图、散点图等形式,以帮助研究者快速了解数据分析结果。
总的来说,优质的单细胞转录组测序数据库应该提供全面的数据分析和可视化功能,以帮助研究者深入理解单个细胞的转录组特征,并为生命科学领域的研究提供有价值的信息和工具。
目前scRNA-seq数据的分析工具数量非常庞大,不同的工具具有不同的特点和功能,单细胞数据库越来越注重对分析方法的使用。例如,HCA数据库的分析功能较为丰富和全面,可以满足不同用户的需求。从数据可视化方面来看,HCA数据库提供了丰富的交互式可视化工具,可以帮助用户直观地浏览和分析大规模细胞数据。用户可以通过热图、散点图、堆积图等方式探索不同细胞类型之间的差异和相似性,同时也可以进行空间分析,了解不同细胞在组织中的分布情况。HCA数据库还提供了一些专门的可视化工具,如“生长轨迹(Trajectory)”和“三维可视化(3D Visualization)”,可帮助用户更好地理解细胞发育和演化的过程。在细胞分类方面,HCA数据库采用了多种方法来对细胞进行分类,包括传统的基于形态学和生物学特征的分类方法和最新的机器学习方法。这些方法可以帮助用户将不同的细胞类型进行标记和分类,并进行比较和分析。在功能注释方面,HCA数据库帮助用户分析和注释不同细胞类型的功能和表达谱,包括基因富集分析、网络分析和代谢通路分析等。HCA数据库使用的分析工具包括Seurat,Cell Ranger,Scanpy,Monocle以及CellProfiler等。这些工具可以帮助用户深入了解细胞的生物学特征和功能,无论是基础科学研究还是临床应用,都有很大的潜力和应用价值。
HCA数据库提供了单细胞转录组学数据的资源,而CancerSEA数据库属于系统性癌症转录组学分析的平台。CancerSEA对带有原始测序文件的scRNA-seq数据集采用内部生物信息学管道进行质量控制和表达量化,研究者们根据元数据(Metadata)和scRNA-seq推断的拷贝数变异方法去除非恶性单细胞,并过滤了低质量的细胞。CancerSEA集成了来自TCGA (The Cancer Genome Atlas)的数千个癌症患者的RNA-Seq数据,使用一系列分析工具对这些数据进行标准化、差异表达和聚类分析等。CancerSEA使用多种计算方法来预测转录因子(Transcription factors, TF)的调控作用,包括基于转录因子结合位点的预测、共表达分析和TF-TF互作网络分析。SC2disease数据库中的条目包含不同细胞类型、组织和疾病相关健康之间差异表达基因的比较 [
数据库 | 是否 预处理 | 降维方法 | 下游分析 | 分析工具 | 在线分析功能 |
---|---|---|---|---|---|
SCovid | 是 | UMAP | Cell annotation, cell clustering, DEG | Seurat, clusterProfiler [
|
无 |
CancerSEA | 是 | PCA, t-SNE | Cell clustering | Seurat, DESeq2 [
|
无 |
SC2disease | 是 | PCA, t-SNE, UMAP, Diffusion Map | Differential expression, gene expression comparison | Seurat, STRING, Cytoscape, Reactome [
|
无 |
CellMarker2.0 | 是 | UMAP, t-SNE | Cell annotation, cell clustering, cell feature, cell differentiation trajectory analysis, cell malignancy, ell communication | InferCNV, Monocle 3, Seurat | 无 |
Expression Atlas | 是 | UMAP, t-SNE, PCA | Differential expression analysis, systematic clustering analysis, expression comparison analysis, biological process enrichment analysis, gene co-expression network analysis, gene regulation analysis | Cell Ranger, Seurat, Scanpy, Monocle, CellProfiler [
|
无 |
Cellatlas | 是 | t-SNE | Cell trajectory, gene regulatory network | Seurat, Scanpy | 有 |
HTCA | 是 | UMAP, t-SNE, PCA | Data integration, data imputation, dimension reduction, clustering, DE analysis, cell type prediction, manual annotation, data splicing, cell–cell communication | Seurat, Harmony [
|
有 |
HUSCH | 是 | UMAP | Functional analyses, transcription regulators, cell–cell interaction analyses, cell type annotation, marker gene identification, differential expression (DE), gene set enrichment analyses (GSEA) | MAESTRO [
|
无 |
ABC portal | 是 | UMAP | Cell annotation, cellular composition, cell-cell communication, gene expression | Cell Ranger, Harmony, DoubletFinder, Seurat, inferCNV, scmap [
|
无 |
Tabula Muris | 是 | t-SNE, PCA, UMAP | Cell type annotation, differential expression, gene regulatory network analysis, cell state analysis, genealogy analysis, cell subgroup analysis | Seurat, Cell Ranger, SCENIC [
|
无 |
HCA | 是 | t-SNE, PCA, UMAP, Diffusion maps, PHATE | Cell type identification, gene expression analysis, trajectory analysis, subcellular localization analysis, integrated analysis | Seurat, Cell Ranger, Scanpy, Monocle, CellProfiler | 无 |
Allen Cell Types Database | 是 | t-SNE, PCA, UMAP | Morphological analysis, electrophysiological analysis, gene expression analysis, classification and clustering, molecular analysis, neuron type identification | Neurolucida [
|
无 |
The Human BioMolecular Atlas Program (HuBMAP) | 是 | t-SNE, PCA, ICA, LDA | Cell type identification, subcellular structure analysis, analysis of cell development and differentiation processes, data integration and network analysis | CellProfiler, STAR, Seurat, CellAssign, Cell Ranger, SCENIC, MetaboAnalyst [
|
无 |
Tabula Muris Senis | 是 | t-SNE, PCA, UMAP | Cell type annotation, differential expression, functional enrichment analysis | Cell Ranger, Seurat, Scanpy, Mast [
|
无 |
PanglaoDB | 否 | / | / | / | 无 |
scRNASeqDB | 是 | t-SNE, PCA, UMAP | Gene expression differential analysis, enrichment analysis, functional annotation | Seurat, Scanpy, Cell Ranger, Loupe Cell Browser | 无 |
CellBlast | 是 | t-SNE, PCA, UMAP | Cell type annotation, clue gene analysis, gene expression analysis, cell identification, driver gene analysis | Seurat, Scanpy, Cell Ranger, SC3 [
|
有 |
表2. 数据库分析的方法
其中,“/”代表原数据库未提供相关功能或者本文未收集到相关内容。
单细胞测序技术的广泛应用已经产生了许多单细胞数据库,这些数据库提供了宝贵的资源来研究生物学中的单细胞异质性和细胞类型。由表2可以看出这些数据库通常会进行预处理,包括质量控制、过滤和归一化等,以确保数据的准确性和一致性。主流的单细胞数据降维方法包括t-SNE、UMAP和PCA,这些方法可以将高维数据可视化为二维或三维图像,以便更好地理解和分析数据。在这些数据库中,这些降维方法通常用于绘制聚类图、细胞类型识别和可视化细胞发育轨迹等方面。在单细胞数据库中,主要的数据分析方法包括聚类分析、细胞类型识别、差异表达分析、轨迹分析以及组成成分分析等。这些分析方法可以帮助科学家更好地理解单个细胞和细胞群体之间的差异和联系,而Seurat、Scanpy和Cell Ranger等分析工具则为我们提供了强大的计算支持。
然而,尽管单细胞数据库提供了丰富的数据资源和多种分析工具,但仍存在一些不足之处。首先,由于不同数据库使用的数据处理和分析方法不同,加上数据文件格式和数据侧重点的不同,数据的对比分析目前仅限于单个数据库内部,这限制了科学家们的研究能力。其次,单细胞数据分析方法和分析工具仅限于常用的几种,无法满足特定研究问题的需求。最后,现有的单细胞数据库大多只对已收集数据进行分析,不提供在线分析功能,这限制了科学家们利用这些数据库进行探索和发现新的生物学知识的能力。因此,未来的单细胞研究应该致力于建立更加统一和标准化的数据处理和分析方法,并将多个单细胞数据库整合到一起,以便更好地进行数据对比分析。同时,需要不断开发新的分析工具和算法,以满足不同研究问题的需求并开发在线分析功能,以便科学家们更好地利用这些数据库进行研究。
单细胞测序技术彻底改变了我们对细胞异质性的理解,揭示了复杂组织和生物体中以前无法企及的细胞多样性水平。然而,分析和解释单细胞测序产生的大量数据仍然是一个重大挑战,需要开发新的计算和统计学方法。近年来,众多单细胞测序数据库的建立为单细胞测序数据的存储、共享和分析提供了便利。在本文中,我们概述了单细胞测序数据库的现状,讨论了它们的优势、弱点和未来的发展潜力。第一代单细胞测序数据库主要侧重于为原始测序数据提供集中存储库,促进更广泛的科学界重用已发表的数据集。这类数据库的例子包括基因表达综合数据库GEO (Gene Expression Omnibus)和序列读取存档数据库SRA (Sequence Read Archive),它们长期以来一直是批量RNA-seq数据的主要存储库。然而,随着单细胞测序领域的成熟,对更专门的数据库的需求,以适应单细胞数据的独特要求变得越来越明显。第二代单细胞测序数据库包括单细胞门户SCP (Single Cell Portal)和单细胞表达图谱SCEA (Single Cell Expression Atlas)等资源,它们提供了更复杂的数据处理和分析管道,使用户能够更详细地探索和可视化单细胞测序数据。这些数据库通常包括用于质量控制、标准化和细胞聚类的工具,以及用于方便识别细胞类型和状态的交互式可视化和探索工具。
单细胞测序领域面临的关键挑战之一是不同技术和平台产生的数据的整合。鉴于技术的快速发展,新的测序平台和方案正在不断开发。为了应对这一挑战,已经启动了几项计划,旨在为单细胞测序数据开发标准化数据格式和元数据模式。例如,HCA项目已经为单细胞测序数据的生成、处理和共享制定了一套数据标准和协议,目标是创建所有人类细胞的全面图谱。
在开发单细胞测序数据库时,另一个重要因素是平衡数据可访问性与数据隐私和安全性。单细胞测序数据具有固有的敏感性,包含关于组织或生物内单个细胞的身份和特征的信息。因此,单细胞测序数据库必须纳入适当的数据安全和隐私措施,如去识别和访问控制,以确保数据的使用符合伦理和负责任。
此外,目前的单细胞转录组测序数据库仍然缺乏对于除人类和小鼠等以外物种的关注,标记基因等重要信息也比较稀缺。单个数据库数据内容关注点过于片面,没有全面涵盖单细胞转录组测序研究中的多个方面。其次,单细胞数据库中用于单细胞数据分析的工具屈指可数,单细胞文件格式不一,在线分析功能的建设也有待完善。
为了解决上述问题,未来单细胞数据库建设可以关注以下几点:
1) 增加数据库的数据量并扩大关注面。在现有单细胞转录组测序数据库的基础上,可以增加对于其他物种的数据收集和处理。另外,可以加强标记基因等重要信息的收集和整理,以满足单细胞转录组测序研究的需求。
2) 加强单细胞数据的分析算法的开发。在单细胞转录组测序数据库中,用于单细胞数据分析的工具数量仍然较少,分析功能也相对简单。未来的单细胞转录组测序研究需要关注分析算法的开发,提高数据分析的准确性和效率。
3) 需要关注对于不同格式数据文件的标准化处理,设定全面统一的分析管道,提高不同数据库的连通性及数据的可比性。这将有助于更好地整合和比较不同数据库中的数据,推进单细胞转录组测序研究的跨数据库整合和比较分析。
单细胞转录组测序研究是一个快速发展的领域,随着数据量和技术水平的不断提高,我们相信这一领域将会在细胞生物学、疾病诊断和治疗等方面取得更大的突破和进展。未来单细胞转录组测序数据库的建设需要关注多个方面的需求,以更好地推动单细胞转录组测序研究的发展。
本研究由国家自然科学基金(项目编号:12090052)提供资助。
陈玲玲,程 烽,胡 桓,徐 飞,李 翔,林 海. 单细胞数据库建设的研究进展Research Progress on Single-Cell Database Construction[J]. 生物物理学, 2023, 11(02): 30-43. https://doi.org/10.12677/BIPHY.2023.112003
https://doi.org/10.1038/s12276-018-0071-8
https://doi.org/10.1038/nbt.3102
https://doi.org/10.1080/15476286.2022.2027151
https://doi.org/10.1111/cas.14377
https://doi.org/10.3389/fimmu.2019.00684
https://doi.org/10.1038/s41467-022-30963-8
https://doi.org/10.1016/j.cell.2020.04.011
https://doi.org/10.1038/s41586-019-1195-2
https://doi.org/10.1038/nm.4336
https://doi.org/10.1016/j.cmet.2016.08.020
https://doi.org/10.1038/onc.2008.271
https://doi.org/10.1158/0008-5472.CAN-10-0192
https://doi.org/10.1038/nature11003
https://doi.org/10.1038/s41591-020-01227-z
https://doi.org/10.1038/s41590-020-0762-x
https://doi.org/10.1038/s41591-020-0901-9
https://doi.org/10.1038/s41591-020-0944-y
https://doi.org/10.1093/bib/bbad005
https://doi.org/10.1093/nar/gkab881
https://doi.org/10.1093/nar/gky939
https://doi.org/10.1186/s13059-019-1676-5
https://doi.org/10.1016/j.compbiomed.2023.106733
https://doi.org/10.1093/nar/gky900
https://doi.org/10.1093/nar/gkac947
https://doi.org/10.1093/nar/gkab905
https://doi.org/10.1093/nar/gkac633
https://doi.org/10.1093/nar/gkac791
https://doi.org/10.1093/nar/gkac1001
https://doi.org/10.1093/nar/gkac646
https://doi.org/10.1016/j.cell.2018.02.001
https://doi.org/10.1038/s41586-018-0590-4
https://doi.org/10.1038/nn.4216
https://doi.org/10.1038/nbt.4038
https://doi.org/10.1038/s41586-020-2496-1
https://doi.org/10.1101/104810
https://doi.org/10.1093/database/baz046
https://doi.org/10.1038/nrd.2017.243
https://doi.org/10.1016/j.cell.2016.03.014
https://doi.org/10.1186/s13059-017-1382-0
https://doi.org/10.1038/nbt.4314
https://doi.org/10.1002/widm.1219
https://doi.org/10.1007/s11704-019-9059-3
https://doi.org/10.1016/j.cosrev.2007.05.001
https://doi.org/10.1038/s41587-019-0071-9
https://doi.org/10.1093/bib/bbac234
https://doi.org/10.1136/annrheumdis-2017-212863
https://doi.org/10.1016/j.ymeth.2015.06.021
https://pubmed.ncbi.nlm.nih.gov/16199517/
https://doi.org/10.1038/nbt.4096
https://doi.org/10.1038/nbt.2859
https://doi.org/10.1093/bioinformatics/btw777
https://doi.org/10.1093/nar/gkw430
https://doi.org/10.1038/ng.3818
https://doi.org/10.1093/nar/gkaa838
https://doi.org/10.1089/omi.2011.0118
https://doi.org/10.1101/gr.1239303
https://doi.org/10.1093/nar/gky1131
https://doi.org/10.1186/s13059-014-0550-8
https://doi.org/10.1093/bioinformatics/btq170
https://doi.org/10.1073/pnas.1530509100
https://doi.org/10.1093/nar/gku443
https://doi.org/10.1186/gb-2006-7-10-r100
https://doi.org/10.1093/nar/gkw377
https://doi.org/10.1093/nar/gkw1102
https://doi.org/10.1038/s41592-019-0619-0
https://doi.org/10.1016/j.celrep.2019.09.082
https://doi.org/10.1038/s41590-018-0276-y
https://doi.org/10.1186/s12859-018-2187-1
https://doi.org/10.1093/bioinformatics/btw313
https://doi.org/10.1016/0377-0427(87)90125-7
https://doi.org/10.1038/s41467-021-21246-9
https://doi.org/10.1038/nmeth.4644
https://doi.org/10.1038/s41596-020-0292-x
https://doi.org/10.1016/j.cels.2016.08.011
https://doi.org/10.1093/bioinformatics/bty916
https://doi.org/10.1109/TVCG.2021.3109460
https://doi.org/10.3390/metabo9030057
https://doi.org/10.1186/s13059-015-0844-5
https://doi.org/10.1038/75556
https://doi.org/10.1038/nmeth.4236