摘要:目的:通过整合公共数据库分析筛选出与人肝细胞癌(HCC)相关的基因,为进一步研究HCC致病机制提供生物学依据并探讨基因在HCC中临床意义。方法:利用癌症基因组图谱数据库(TCGA)和GEO数据库获取肝细胞癌测序数据集及临床信息资料,采用生物信息学方法对数据进行提取、整理和分析,筛选出肝细胞癌差异表达基因(DEGs),并利用DAVID数据库对DEGs进行基因本体论(GO)及通路富集分析(KEGG),通过STRING数据库,Cytoscape及其插件cytoHubba,NetworkAnalyzer分析蛋白质互作网络的中心节点蛋白质,寻找关键(Hub)基因。结果:通过对TCGA数据、GSE29721、GSE84402数据集整合取交集获得了43个上调基因和137个下调基因,DEGs主要涉及免疫应答,趋化因子介导的信号通路、炎症反应及细胞表面受体信号通路等生物过程,介导趋化因子活性,免疫球蛋白受体结合等分子过程,主要富集于质膜外区域;KEGG分析结果显示DEGs主要富集于细胞因子–细胞因子受体相互作用等经典信号通路,筛选得到CDC20,RAD51AP1,RRM2,TTK,NUF2,NDC80,CCNB1,KIF11,UBEC2,BUB1B 10个Hub基因。其中HCC组织里NUF2的表达与正常组织中的表达有显著差异(P < 0.05),且和年龄,肿瘤分级、临床分期显著相关。结论:通过生物信息学方法分析所得的Hub基因及信号通路可能是HCC潜在的治疗靶点,本文为HCC发病机制的进一步研究提供了理论依据。
Abstract:Objective: To screen out genes related to human hepatocellular carcinoma (HCC) by integrating public database analysis, so as to provide biological basis for further study of the pathogenesis of HCC and explore the clinical significance of genes in HCC. Methods: Hepatocellular carcinoma se-quencing data set and clinical information were obtained by using cancer Genome Atlas Database (TCGA) and GEO database. Bioinformatics methods were used to extract, collate and analyze the da-ta. Differentially expressed genes (DEGs) in hepatocellular carcinoma were screened, and gene on-tology (GO) and pathway enrichment analysis (Kyoto Encyclopedia of Genes and Genomes, KEGG) were performed on DEGs using DAVID database. Through the STRING database, Cytoscape and its plugin cytoHubba, NetworkAnalyzer analyzes proteins at the central nodes of the protein interac-tion network, looking for key (Hub) genes. Results: 43 up-regulated genes and 137 down-regulated genes were obtained by integrating the intersection of TCGA data, GSE29721 and GSE84402 data sets. DEGs mainly involves biological processes such as immune response, chemokine-mediated signaling pathway, inflammatory response and cell surface receptor signaling pathway, which me-diate chemokine activity. Molecular processes, such as immunoglobulin receptor binding, are mainly concentrated in the extramural region; KEGG analysis showed that DEGs were mainly en-riched in classic signaling pathways such as cytokine-cytokine receptor interaction. Ten Hub genes including CDC20, RAD51AP1, RRM2, TTK, NUF2, NDC80, CCNB1, KIF11, UBEC2 and BUB1B were screened. The expression of NUF2 in HCC tissues was significantly different from that in normal tis-sues (P < 0.05), and was significantly correlated with age, tumor grade and clinical stage. Conclusion: The Hub gene and signal pathway analyzed by bioinformatics methods may be potential therapeu-tic targets for HCC, which provides a theoretical basis for the progress of the pathogenesis of HCC.
1. 引言
肝细胞癌(HCC)是肝癌中比较常见的一种,其病情进展迅速,恶性程度很高,且起病隐匿,大多数患者早期无症状和体征,多数患者确诊后生存期仅有3~6个月 [1] [2] [3] 。肝细胞癌的癌症死亡率很高,居全球范围内前列 [4] [5] 。HCC发生发展的主要因素包括肝硬化,病毒性肝炎,黄曲霉素和化学致癌物等 [6] [7] ,其中乙肝病毒(HBV)的感染是其发病的重要因素 [8] ,尤其是在东亚地区。根据IDF癌症数据统计显示,中国每年报告新发肝癌病例约为39.2万例,死亡人数约为34.1万人,占全球总死亡人数的50%以上。在东亚地区,约有90%的肝癌患者和70%以上的乙肝病毒感染者有关。乙肝病毒携带者的肝癌发病率是普通人的几倍。据WHO数据显示,乙肝病毒携带者患肝癌的比例为10%~25%,而不是携带病毒的人中只有0.1%。在中国,约6000万~8000万人是HBV携带者,占该国总人口的10%~15%。而在台湾地区,超过三分之一的人口是HBV携带者。在香港地区,HBV的携带率为8.3%。对于HBV携带者,如果不及时进行有效的治疗,大约有15%~25%会发展成为肝硬化和/或肝癌。因此,对于感染HBV的人群,及时进行预防、监测和治疗,是降低肝癌发病率的关键。虽然早期肝细胞癌的手术治疗效果较好 [9] ,但患者术后五年生存率仅50%~70% [10] [11] [12] 。对于中晚期HCC患者的治疗多采用放射治疗,药物治疗和免疫治疗等 [13] [14] ,但是效果并不理想,因此寻找潜在的治疗靶点具有重要的研究意义。本研究旨在利用公共数据库GEO数据库和TCGA数据库进行数据挖掘分析,我们分别对肝癌组织和癌旁组织进行差异表达分析,寻找肝细胞癌的潜在治疗靶基因,为疾病的预防,诊断和靶向治疗提供新的途径和方向。
2. 材料和方法
2.1. 数据来源
数据来源于癌症基因图谱(the cancer gene atlas, TCGA)数据库,GEO公共数据库,GEO数据集为GSE29721 [15] ,GSE84402 [16] 。TCGA数据库包括374例HCC组织样本,50例癌旁组织样本,本研究纳入374例HCC样本及50例癌旁组织样本,GSE2921是基于GPL570平台,该芯片包括10例HCC组织样本,10例癌旁组织样本;GSE84402是基于GPL570平台,该芯片数据包括14例HCC组织样本,14例癌旁组织样本。本研究纳入398例HCC组织样本及74例癌旁组织样本。所有数据分析均使用R软件(4.0.1)完成。
2.2. 数据集筛选和差异表达分析
剔除TCGA数据集中临床信息不完整及缺乏随访资料的样本,仅保留同时包含临床参数和生存数据的样本,获得每个样本的表达举证并利用R软件的“limma”包,以|logFC| > 1,P < 0.05为条件,筛选出HCC组织中和癌旁组织中的DEGs,并绘制Venn图取交集。其中筛选出的NUF2基因,使用pheatmap包,以|r| > 0.5,P < 0.05为条件,筛选NUF2表达显著相关的基因;以NUF2表达中值为界限,分为NUF2低表达组和NUF2高表达组,对NUF2相关基因进行聚类分析,获得聚类热图。
2.3. PPI网络构建及关键(Hub)基因分析
利用STRING数据库对HCC中上调和下调基因绘制蛋白间交互网络(PPI),并以TSV格式导出数据,再将得到的源文件导入cytoscape软件,使用插件NetworkAnalyzer,cytoHubba进行关键(Hub)基因的筛选,选用MCC算法,得分前10的基因选取为Hub基因。
2.4. DEGs的GO富集分析和KEGG分析
基因本体论(gene ontology, GO)是注释基因及其产物的重要方法和工具,对整合和利用生物数据具有重要意义。利用DVID数据库,基于R语言的“ClusterProfiler”包,对DEGs进行GO和KEGG通路富集分析,获取差异基因在细胞组分(CC),分子功能(MF),生物过程(BP)三个层面的GO富集分析,以及通过KEGG数据库获得差异基因相关的通路富集分析。显著性基因富集的临界值设定为P < 0.05。
2.5. NUF2在HCC中的表达分析
使用TIMER2.0数据库,展示NUF2_TCGA中多种癌症和癌旁的表达情况,展示NUF2在HCC组织中与HCC癌旁组织的表达情况。
2.6. 生存分析与临床相关性分析
根据样本中NUF2基因表达的中位值将NUF2分为高表达和低表达两组,运用R软件的“survival”包进行生存分析,采用“survmine”包绘制生存曲线及ROC诊断曲线。将年龄按>60岁和≤60岁分为两组,分析NUF2的表达与年龄的相关性。将肿瘤T分期分为T1,T2,T3,T4期,并分析NUF2的表达与肿瘤T分期的相关性。
2.7. NUF2和HCC免疫浸润相关性分析
利用仙桃学术工具及TIMER数据库分析NUF2的表达与HCC免疫浸润的相关性。
3. 结果
3.1. 差异表达分析
对TCGA,GSE29721,GSE84402数据集的DEGs进行标准化处理,最终以R语言的Venn包进行结果可视化,经过差异表达分析,分别获得肝癌中42个上调和137个下调差异基因。见图1。
(a) (b)
Figure 1. The differentially expressed genes Venn diagram to |logFC| > 1, P < 0.05 for conditions, screening differentially expressed genes in liver cancer, do take the result of the intersection Venn diagram
图1. 差异表达基因Venn图,以|logFC| > 1,P < 0.05为条件,筛选出肝癌中差异表达基因,做Venn图取交集的结果
3.2. PPI网络构建及关键(Hub)基因分析
根据差异表达基因进行PPI网络构建及hub基因分析,取前10个hub基因:CDC20,RAD51AP1,RRM2,TTK,NUF2,NDC80,CCNB1,KIF11,UBEC2,BUB1B见图2。
Figure 2. The interaction network between 42 up-regulated and 137 down-regulated genes in liver cancer was mapped using STRING database; top 10 hub gene from PPI network using cytoscape
图2. 使用STRING数据库对肝癌中42个上调和137个下调基因绘制了蛋白之间的交互网络;利用cytoscape从PPI网络里取的top 10 hub gene
3.3. GO分析和KEGG分析
(a)(b)
Figure 3. GO analysis and KEGG pathway enrichment analysis: red represents the pathway with high gene expression; Blue represents low-expression gene enrichment pathways
图3. GO分析和KEGG通路富集分析:红色代表高表达基因富集的通路;蓝色代表低表达基因富集的通路
采用DVID数据库对43个上调基因和137个下调基因进行GO分析和KEGG富集分析,结果表明:差异表达基因在BP上主要富集于carboxylic biosynthetic过程和organic acid biosynthetic过程,在CC上主要富集于spindle,blood micropaticle和midbody,在MF上主要富集于iron ion binding,oxidoreductase activity,acting on paired donors,with incorporation or reduction of molecular oxygen。在KEEG通路上,上调基因主要富集于Cell cycle,Oocyte meiosis和P53 signaling pathway上,下调基因主要富集于Retinol expression和Chemical carcinogenesis。见图3。
3.4. NUF2在HCC中表达情况
使用TIMER2.0数据库分析显示,相比于癌旁组织,NUF2在多种癌症组织中高表达,且相比于HCC癌旁组织,NUF2在HCC组织中高表达。经Oncomine数据库分析显示,NUF2在HCC组织中高表达,且已有2个研究证明NUF2在HCC中表达上调。见图4,图5。
Figure 4. The TIMER2.0 database was used to show the expression of NUF2_TCGA in various cancers and paracancerals, proving that NUF2 is highly expressed in liver cancer compared with paracancerals
图4. 使用TIMER2.0数据库,展示NUF2_TCGA中多种癌症和癌旁的表达情况,证明NUF2在肝癌相比癌旁组织是高表达
Figure 5. The expression of NUF2 in HCC tissues was analyzed by Oncomine database. Red is high expression and blue is low expression
图5. Oncomine数据库分析NUF2在HCC组织中表达情况;红色代表高表达,蓝色代表低表达
3.5. NUF2生存分析及临床相关性分析
经生存分析显示,高表达NUF2组患者生存期显著短于低表达NUF2组(P < 0.001),且NUF2 ROC曲线下面积 = 0.983,对HCC具有极大的诊断价值。进行临床相关性分析显示,年龄越大,NUF2越高表达,临床T分期越高,NUF2表达越高。见图6,图7。
Figure 6. Survival analysis and ROC curve
图6. 生存分析与ROC曲线
Figure 7. Relationship between age and T stage and NUF2 expression
图7. 年龄和T分期与NUF2的表达关系
3.6. NUF2的表达与HCC免疫浸润关系
经仙桃学术与TIMER数据库分析显示,NUF2的表达与Th2,T辅助细胞,B细胞,树突状细胞免疫浸润显著相关(P < 0.001),且与PD1表达显著相关(P < 0.001),与PD-L1表达相关性较弱。见图8。
4. 讨论
尽管针对HCC的研究已经取得了令人瞩目的成绩,但用以阐明HCC易感性、进展和预后的潜在分子机制的相关基因尚未确定。也就是说,针对与HCC患者预后不良相关的直接调控机制的新疗法仍需确定 [17] [18] [19] 。目前,手术切除仍是剩余肝功能良好的患者的主要治疗选择。不幸的是,复发的风险非常高,5年肿瘤复发率高达70% [20] ,强调了准确精准治疗的迫切临床需要,以提高肝癌患者的生存率。
(a)(b)(c)(d)
Figure 8. Relationship between NUF2 expression and HCC immune infiltration
图8. NUF2的表达与HCC免疫浸润关系
尽管在HCC微阵列数据集中,一些肿瘤特征显示与肿瘤复发显著相关 [21] [22] ,当这些定性临床参数在不同的中心被记录时,在其他独立数据集中很少观察到这种相关性,这些数据集显示了高度的可变性和由此产生的低重现性。文献证据表明 [17] [23] ,早期复发的肿瘤可能与原发肿瘤的转移特性有关,一项研究对995例行肝切除手术的肝癌患者进行随访,发现早期复发的肝癌病例中,约有70%的病人切除前存在血管瘤样结构,也就是在肿瘤周围存在微小的癌细胞群,这些癌细胞可以通过静脉、淋巴管扩散到周围组织和器官导致早期复发。晚期复发的肝癌则可能是新发肿瘤的结果。一项研究对311例肝癌患者进行随访,发现晚期复发的肝癌病例中,约有66.4%的患者出现了新的肝癌病变,并非原来肿瘤的再生长或转移所致。此外,患者的肝功能状态、术后生活方式等因素也可能对晚期复发的发生起到影响。因此,对于肝癌的复发治疗,应根据早期和晚期的不同成因采取不同的治疗策略。在早期复发的治疗中,需要注意预防血管瘤样结构的形成,减少肝切除手术对肝功能的影响;在晚期复发的治疗中,则需要寻找肝癌的新病变,并对新病变进行及时的治疗。在本研究中,我们选择了3个公共微阵列数据集,根据纳入标准,在398个HCC样本和74个非砷样本中筛选除了43个上调DEGs和137个下调DEGs。利用DEGs的PPI网络识别枢纽基因,我们确定了10个hub基因:CDC20,RAD51AP1,RRM2,TTK,NUF2,NDC80,CCNB1,KIF11,UBEC2,BUB1B。然后基于DVID数据库,通过GO和KEGG分析,注释DEGs的功能。最后我们选择了1个潜在的治疗靶点NUF2进行后续分析。据报道,NUF2在HCC细胞生长中具有重要的功能 [24] 。依据我们的研究,NUF2在肝癌中表达上调。多因素logistic回归表明,NUF2是可以成为HCC早期的治疗靶点 [12] [25] 。我们进一步测试了NUF2是否与临床病理参数相结合能够更好地作为潜在治疗HCC的靶点。通过生存分析发现,高表达NUF2组的患者生存期显著低于低表达NUF2组患者。且根据NUF2进行预测HCC的生存期,预测灵敏度很高。总之,我们系统地比较了HCC组织样本和HCC癌旁组织样本中NUF2的表达差异,并分析其与临床的相关性。我们进一步测试和验证了NUF2可成为HCC治疗的靶点,这对于优化HCC患者的治疗方案是非常重要的。
NUF2属于有丝分裂的关键分子,可以影响细胞有丝分裂的进程,与肿瘤的发生和发展也有密切的关系。一些研究表明,NUF2在肿瘤组织中的表达水平较正常组织中显著升高,因此被认为是可能的肿瘤标志物。在临床应用方面,NUF2可以作为一种潜在的肿瘤诊断和预测生存的标志物。例如,在许多癌症的研究中,NUF2的表达水平与肿瘤的分子亚型和生存率有关。因此,在临床上检测NUF2的表达水平可以帮助医生诊断和预测患者的疾病进展。此外,NUF2还被认为可能是一种适合于肿瘤治疗的靶标。一些研究表明,通过靶向抑制NUF2,可以有效地抑制肿瘤生长。这意味着NUF2在临床上可能成为一种治疗肿瘤的可行靶点。总的来说,NUF2在肿瘤的诊断、预测和治疗方面具有潜在的临床应用价值,但需要进一步的研究来证实其具体的应用前景。
NOTES
*通讯作者。