目的:利用生物信息学分析帕金森病人黑质基因表达谱,为进一步帕金森病研究提供研究方向。方法:在Gene Expression Omnibus (GEO)数据库中使用“帕金森病”、“组织”、“表达谱”,并限定组织来源为“智人”,获得2020年3月22日前GEO数据库中的所有生物学样本信息数据。使用GEO2R、DAVID、STRING网站和Cytoscape软件进行数据分析。结果:根据检索条件获得了两个数据集,GSE42966 (对照组3名,帕金森病组6名)和GSE49036 (对照组8名,帕金森病组7个)。分析两个数据集GSE42966和GSE49036中分别存在632和1247个差异表达基因。在这两个数据集的差异基因中共有92个共表达差异基因,其中表达上调基因49个,表达下调基因43个。此外根据KEGG信号通路分析主要集中在细菌侵袭上皮细胞、神经营养蛋白信号通路、轴突导向和MAPK信号通路信号中富集。通过STRING网站构建PPI蛋白网络然后通过Cytoscape软件分析发现其中NTRK3、BDNF、GAB1、PCSK1、CHURC1、GFRA1、SHC4、DOK6、ASPA和ZEB2这十个基因为鉴定帕金森病的主关键基因。结论:通过两个数据集的生物信息学联合分析,找到与帕金森病相关的10个主关键基因,这可能为帕金森病分子通路的研究以及临床上治疗帕金森病提供新思路。 Objective: The expression profiles of substantia nigra in Parkinson’s disease were analyzed by using bioinformatics identifying novel genetic targets. Methods: All biological data before March 22, 2020 related to “Parkinson’s disease”, “tissue”, “Expression profiles” and “homo sapiens” were down-loaded from the Gene Expression Omnibus (GEO) database. Then GEO2R, DAVID, STRING, and Cyto-scape software were used for data analysis. Results: According to the search conditions, two data sets were obtained, GSE42966 (3 in the control group, 6 in the PD group) and GSE49036 (8 in the control group, 7 in the PD group). From these two datasets 632 and 1247, differentially expressed genes were identified, respectively. There were a total of 92 differentially expressed genes in these two datasets, among which 49 genes were up-regulated and 43 genes were down-regulated. In ad-dition, according to the analysis of the KEGG pathway, the signaling pathways are mainly concen-trated in the signals of bacterial invasion of epithelial cells, neurotrophin signaling pathway, axon guidance and MAPK signaling pathway. The PPI network was established through the STRING web-site and then analyzed through Cytoscape software. Ten genes including NTRK3, BDNF, GAB1, PCSK1, CHURC1, GFRA1, SHC4, DOK6, ASPA and ZEB2 were identified as the hub genes for PD. Con-clusions: Through the combined bioinformatics analysis of the two data sets, 10 hub genes related to Parkinson’s disease were identified, which may provide new ideas for the research of molecular pathways of Parkinson’s disease and the clinical treatment of Parkinson’s disease.
目的:利用生物信息学分析帕金森病人黑质基因表达谱,为进一步帕金森病研究提供研究方向。方法:在Gene Expression Omnibus (GEO)数据库中使用“帕金森病”、“组织”、“表达谱”,并限定组织来源为“智人”,获得2020年3月22日前GEO数据库中的所有生物学样本信息数据。使用GEO2R、DAVID、STRING网站和Cytoscape软件进行数据分析。结果:根据检索条件获得了两个数据集,GSE42966 (对照组3名,帕金森病组6名)和GSE49036 (对照组8名,帕金森病组7个)。分析两个数据集GSE42966和GSE49036中分别存在632和1247个差异表达基因。在这两个数据集的差异基因中共有92个共表达差异基因,其中表达上调基因49个,表达下调基因43个。此外根据KEGG信号通路分析主要集中在细菌侵袭上皮细胞、神经营养蛋白信号通路、轴突导向和MAPK信号通路信号中富集。通过STRING网站构建PPI蛋白网络然后通过Cytoscape软件分析发现其中NTRK3、BDNF、GAB1、PCSK1、CHURC1、GFRA1、SHC4、DOK6、ASPA和ZEB2这十个基因为鉴定帕金森病的主关键基因。结论:通过两个数据集的生物信息学联合分析,找到与帕金森病相关的10个主关键基因,这可能为帕金森病分子通路的研究以及临床上治疗帕金森病提供新思路。
生物信息学,帕金森病,黑质,基因表达谱
Bing Cao, Pengyue Wu, Yanqiu Zhang, Yuxuan Dong, Yanqin Wang*
Hebei Normal University, Shijiazhuang Hebei
Received: Nov. 23rd, 2020; accepted: Dec. 14th, 2020; published: Dec. 22nd, 2020
Objective: The expression profiles of substantia nigra in Parkinson’s disease were analyzed by using bioinformatics identifying novel genetic targets. Methods: All biological data before March 22, 2020 related to “Parkinson’s disease”, “tissue”, “Expression profiles” and “homo sapiens” were downloaded from the Gene Expression Omnibus (GEO) database. Then GEO2R, DAVID, STRING, and Cytoscape software were used for data analysis. Results: According to the search conditions, two data sets were obtained, GSE42966 (3 in the control group, 6 in the PD group) and GSE49036 (8 in the control group, 7 in the PD group). From these two datasets 632 and 1247, differentially expressed genes were identified, respectively. There were a total of 92 differentially expressed genes in these two datasets, among which 49 genes were up-regulated and 43 genes were down-regulated. In addition, according to the analysis of the KEGG pathway, the signaling pathways are mainly concentrated in the signals of bacterial invasion of epithelial cells, neurotrophin signaling pathway, axon guidance and MAPK signaling pathway. The PPI network was established through the STRING website and then analyzed through Cytoscape software. Ten genes including NTRK3, BDNF, GAB1, PCSK1, CHURC1, GFRA1, SHC4, DOK6, ASPA and ZEB2 were identified as the hub genes for PD. Conclusions: Through the combined bioinformatics analysis of the two data sets, 10 hub genes related to Parkinson’s disease were identified, which may provide new ideas for the research of molecular pathways of Parkinson’s disease and the clinical treatment of Parkinson’s disease.
Keywords:Bioinformatics, Parkinson’s Disease, Substantia Nigra, Gene Expression Profile
Copyright © 2020 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
帕金森病(PD),又叫震颤麻痹,是一种常见于老年人仅次于阿尔兹海默症的神经系统变性疾病 [
在Gene Expression Omnibus(GEO)数据库(http://www.ncbi.nlm.nih.gov/geo/)中搜索几个关键词,包括“帕金森病”、“组织”、“数组表达谱”、“智人”获取2020年3月22日前GEO数据库中的所有生物学样本信息。在搜索的91个数据信息中,本研究选择了两个以人的黑质组织为研究对象的数据集:GSE42966和GSE49036。GSE42966包含3名对照组和6名临床3~4期PD未治疗患者(Hoehn-CYahr量表)。GSE49036包含8名对照组和7名临床3~4期帕金森病患者(图1)。
图1. 数据处理和分析流程
(http://www.ncbi.nlm.nih.gov/geo/GEO2R/)是一种在线分析工具,用于在GEO数据集中的样本组之间进行比较,以识别实验条件下的差异表达基因(differentially expressed genes, DEGs)。在我们的研究中,我们从两个数据集,包括GSE42966和GSE49036,获得了DEGs。当选择DEGs时,根据系统校正临界值定为P < 0.05,倍率变化为1.3。GSE42966数据集是用Agilent-014850 Whole Human Genome Microarray 4 × 44K G4112F进行分析的;GSE49036数据集是用[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array分析的。
将GSE42966和GSE49036中与PD相关的共差异基因利用DAVID网站(https://david.ncifcrf.gov/)分析共差异基因功能特征。DAVID是一个基于web的系统,它整合了来自不同资源的信息来检测候选基因列表中的生物主题。基因本体论(Gene Ontology ,GO)用作描述基因的本质,包括1) 细胞组分(Cellular Component, CC):用来描述基因作用的位置;2) 分子功能(Molecular Function):用来描述分子水平活性;3) 生物学过程。而KEGG(Kyoto Encyclopedia of Genes and Genomes, KEGG)数据库是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能的数据库。差异基因信号通路分析能够帮助我们更好地了解在一个生物学过程中某个或某一些蛋白质所扮演的角色。我们将P值小于0.05定义为富集显著。
利用检索基因/蛋白质相互作用搜索工具(STRING,https://STRINGdb.org/)在GSE42966和GSE49036两个数据集中构建蛋白质–蛋白质相互作用(PPI)网络。我们建立了只使用重叠差异表达基因的PPI网络,并将置信度截断值设置为大于0.4。
为了检测GSE42966和GSE49036中的DEGs,我们设置了灵敏度P < 0.05和倍数变化1.3。GEO2R分析表明GSE42966和GSE49036中分别存在632和1247 DEGs (图2)。在GSE42966和GSE49036中,共表达的差异基因有92个。其中49个基因表达上调,43个基因表达下调(图3)。
图2. 两个数据集中差异基因表达火山图
图3. 两个数据集中共上调和下调基因韦恩图
对于DEGs,生物过程(biological process,BP)中最显著是神经系统发育、神经轴突导向、细胞骨架、蛋白磷酸化、抑制突触后电位正调控、细胞内信号转导、代谢过程、胞吐作用、解剖结构形态、磷脂酰肌醇磷酸酶去磷酸化、基因表达调控、神经元投射发育和多聚糖加工(图4)。
我们根据GO项列出了所有BP (生物过程) (图4(A))、CC (细胞组分) (图4(B))、分子功能(molecular function, MF) (图4(C))和KEGG途径(P < 0.05)。此外,KEGG途径分析显示DEGs集中在细菌侵染上皮细胞、轴突导向、神经营养蛋白信号通路、MAPK信号通路中富集(图4(D))。
图4. 生物过程及KEGG信号通路分析
利用GSE42966和GSE49036之间的92个重叠差异基因,通过STRING网站建立了蛋白质-蛋白质(PPI)网络(图5(A))。红色代表上升基因,绿色代表下降基因。随后,我们利用Cytoscape分析了连接结果,根据基因在网络中联系的多少从而将PPI网络中的10个基因鉴定为PD中的主关键基因,如果一个基因发生变化,那与之相联系的其他基因必然发生变化。其中包括NTRK3,BDNF,GAB1,GFRA1,ASPA,SHC4,PCSK1,DOK6,CHURC1,ZEB2 (图5(B))。颜色由深到浅代表其重要性依次过度,颜色越深代表越重要。
图5. PPI网络分析和种子基因筛选
帕金森病作为一种多发于60岁以上老年人的慢性神经系统退行性疾病,研究预计到2030年,发病人数将从870万上升到930万,严重影响了中老年人的生活 [
本研究通过生物信息学分析方法,对PD患者及正常人的黑质组织进行芯片分析的两个数据集GSE42966和GSE49036进行联合分析,在研究中发现共表达的差异基因有92个,其中49个基因表达上调,43个基因表达下调。这些差异基因在神经营养蛋白信号通路、轴突导向、MAPK信号通路信号中富集。由于这十个基因在PPI网络分析中高度表达,因此被鉴定为PD中的主关键基因,包括:NTRK3、SHC4、BDNF、CHURC1、GAB1、GFRA1、ASPA、PCSK1、DOK6和ZEB2。
神经营养蛋白因子作为生长因子家族的一员,在神经系统中发挥着重要的作用,包括对中枢神经系统的存活以及树突和轴突的维持,有研究表明神经营养蛋白突触可塑性中起着重要的作用 [
基因 | 疾病 | 变化趋势 | 参考文献 |
---|---|---|---|
NTRK3 | SH-SY5Y | 下调 | Esteban PF,等 [
|
BDNF | C57BL/6小鼠(MPTP) | 下调 | Ji C , Xue G F等 [
|
GFRA1 | SD大鼠(6-OHDA) | 上调 | Kasanga EA等 [
|
GAB1 | PD患者(iPSC) | 下调 | Aflaki E,等 [
|
表1. 已经确定与帕金森有关的基因列表
在帕金森病中发现了调节纹状体多巴胺能终末神经支配逐渐丧失的现象,有研究者通过PCR发现了调控纹状体多巴胺能表达的调节剂ZEB2,与我们筛选基因中发现了ZEB2相一致,ZEB2还参与海马神经元的发育、皮质GABA能神经元、中枢神经系统髓鞘的形成。在ZEB2基因敲除小鼠中发现ZEB2具有调节纹状体多巴胺能轴突的生长 [
我们联合分析的结果表明这10个与PD发生的主关键基因可能主要通过神经营养蛋白信号通路、轴突导向以及MAPK信号通路等影响着多巴胺能神经元的存活与死亡。已确定的与帕金森病有关的基因如表1所示,然而特定的某个基因与PD的关系我们却知之甚少。PD的发生是一个复杂的过程,我们鉴定出的基因可能是PD诊断和治疗的潜在靶点,这项研究为PD的研究提供了重要信息。
河北师范大学重点科研基金项目(L2020Z05)。
曹冰,武鹏月,张艳秋,董雨轩,王艳芹. 利用生物信息学分析帕金森病人黑质基因表达谱研究The Bioinformatics Analyses on Expression Profiles of the Substantia Nigra in Parkinson’s Disease[J]. 计算生物学, 2020, 10(04): 69-77. https://doi.org/10.12677/HJCB.2020.104008
https://doi.org/10.4103/1673-5374.280315
https://doi.org/10.1002/mds.27543
https://doi.org/10.4103/1673-5374.200802
https://doi.org/10.1016/j.gpb.2018.10.007
https://doi.org/10.1016/j.lfs.2019.03.057
https://doi.org/10.3233/JPD-181306
https://doi.org/10.1038/s41401-020-0358-x
https://doi.org/10.1016/j.cell.2013.07.030
https://doi.org/10.1002/mds.21586
https://doi.org/10.1001/jama.2019.22360
https://doi.org/10.1016/S0896-6273(03)00568-3
https://doi.org/10.1007/978-3-642-45106-5_9
https://doi.org/10.1186/1471-2199-11-95
https://doi.org/10.1111/j.1460-9568.2005.04074.x
https://doi.org/10.1038/s41401-020-0371-0
https://doi.org/10.1083/jcb.200512013
https://doi.org/10.1134/S0026893316030067
https://doi.org/10.3390/brainsci10040195
https://doi.org/10.1002/mds.27306
https://doi.org/10.1523/JNEUROSCI.4601-04.2005
https://doi.org/10.1038/s41598-019-55294-5
https://doi.org/10.1021/acschemneuro.9b00291
https://doi.org/10.1074/jbc.M403726200
https://doi.org/10.1038/s41598-017-08900-3
https://doi.org/10.1007/s00441-017-2704-y
https://doi.org/10.1523/JNEUROSCI.0636-16.2016