新冠肺炎(COVID-19)在全球范围爆发,至今仍未得到有效控制。新冠病毒(SARS-CoV-2)表面的刺突蛋白(spike protein, S)在病毒传播中起着十分重要的作用,针对它的分析在疾病预防与免疫中具有重要的应用价值。本文分析了新型冠状病毒基因序列的碱基分布及S蛋白基因的突变情况。针对相关新冠病毒基因序列进行多种可视化处理及分析,选择多条S蛋白基因序列,运用BLAST以及MEGA6软件进行信息比对、对齐,再进行信息熵的计算、展示可视化分布及相关分析。结果显示,新冠病毒基因碱基的整体分布具有对称性,由于选择的S蛋白数量不大变异量较小,其信息熵可视化分布呈现的特征聚点数目也较少。 At present, the COVID-19 is breaking out on a global scale, and it has not been effectively controlled. Because the surface spike protein of SARS-CoV-2 genomes plays an important role in the spread of the virus, it provides valuable information for fighting COVID-19 and vaccine practices. This paper analyzed the base distribution of SARS-CoV-2 genomes and the mutation of S protein gene. It made visualization to analyze the relevant gene sequences. Multiple S protein gene sequences are select-ed, then the BLAST and MEGA6 are applied to compare and align them. Then S proteins are calcu-lated their information entropy, and made visualization of their entropy distributions. The visual results show that the base distributions of SARS-CoV-2 genomes have symmetrical properties. Due to smaller number of S proteins selected, there are only a limited number of clustering on their dis-tributions of information entropy.
新冠肺炎(COVID-19)在全球范围爆发,至今仍未得到有效控制。新冠病毒(SARS-CoV-2)表面的刺突蛋白(spike protein, S)在病毒传播中起着十分重要的作用,针对它的分析在疾病预防与免疫中具有重要的应用价值。本文分析了新型冠状病毒基因序列的碱基分布及S蛋白基因的突变情况。针对相关新冠病毒基因序列进行多种可视化处理及分析,选择多条S蛋白基因序列,运用BLAST以及MEGA6软件进行信息比对、对齐,再进行信息熵的计算、展示可视化分布及相关分析。结果显示,新冠病毒基因碱基的整体分布具有对称性,由于选择的S蛋白数量不大变异量较小,其信息熵可视化分布呈现的特征聚点数目也较少。
COVID-19,SARS-CoV-2,S蛋白,信息熵,可视化分布
Ke Wu, Yueqing Zhang, Jiazheng Huang, Xinyu Dong, Shuzhi Zhang, Jeffrey Zheng
School of Software, Yunnan University, Kunming Yunnan
Received: Feb. 11th, 2021; accepted: Mar. 11th, 2021; published: Mar. 23rd, 2021
At present, the COVID-19 is breaking out on a global scale, and it has not been effectively controlled. Because the surface spike protein of SARS-CoV-2 genomes plays an important role in the spread of the virus, it provides valuable information for fighting COVID-19 and vaccine practices. This paper analyzed the base distribution of SARS-CoV-2 genomes and the mutation of S protein gene. It made visualization to analyze the relevant gene sequences. Multiple S protein gene sequences are selected, then the BLAST and MEGA6 are applied to compare and align them. Then S proteins are calculated their information entropy, and made visualization of their entropy distributions. The visual results show that the base distributions of SARS-CoV-2 genomes have symmetrical properties. Due to smaller number of S proteins selected, there are only a limited number of clustering on their distributions of information entropy.
Keywords:COVID-19, SARS-CoV-2, S Protein, Information Entropy, Visual Distribution
Copyright © 2021 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
2020年12月中旬,英国首次报告了传染性极强的新冠(SARS-CoV-2)病毒突变株:B.1.1.7毒株,这一毒株很快成为伦敦地区主要毒株。
S蛋白(spike protein,刺突蛋白)在冠状病毒进入宿主细胞时,主要由跨膜刺突(S)糖蛋白进行介导并参与入胞过程,在新型冠状病毒的传播过程中发挥着重要的作用 [
目前,基因研究的常规方式是通过基因特征提取、基因序列定位等方式来找到关键位点进行研究 [
信息熵1的概念自1948年被香农提出后,随着科技的发展,已突破香农信息论的范围,在生物医学领域被研究应用并取得成果,成为现代生物医学领域中的一种新思路、新方法。因此本文将信息熵引入生物信息学领域,根据信息熵的概念和香农公式 [
本文将在第二章中介绍系统架构,使用S蛋白熵值可视化将S蛋白的基因序列进行处理、计算、投影成二维可视化图示,在第三章中以可视化的结果来对复杂的S蛋白进行展示。
m:DNA序列各分组长度(这里我们选取了m = 80进行可视化处理分析);
M:每条序列组数, M = A L L m (ALL为每条序列总碱基数);
P N i :每组分组对应排列N ( i = 1 , 2 , 3 , ⋯ , M ;N = A、C、G、T、AC、AG、AT、CG、CT、GT、ACG、
ACT、AGT、CGT、ACGT,顺序无关)的出现概率, P N i = S U M ( N ) m ;
E N :每条序列各排列分组的信息熵(N = A、C、G、T、AC、AG、AT、CG、CT、GT、ACG、ACT、AGT、CGT、ACGT),计算公式为
E N = − ∑ i = 1 M P N i log 2 P N i
( E N , E N ) :每条序列信息熵映射生成图像上的点,如 ( E A , E C ) 即表示该条序列碱基A与C的信息熵在图像上的映射。
系统整体架构如图1所示,分为输入、计数、处理、投影、输出五个模块,其中核心功能模块有三个,分别是处理、测量、投影模块。
图1. 架构
计数模块的功能是将新冠病毒基因序列S蛋白以m个碱基为一段,进行四种碱基(A,T,C,G)的数量统计;在处理模块中需要对各段信息熵进行计算,再累加各段信息熵得到S蛋白的熵值;在投影模块中,可以选择查看单张信息熵分布图或225张信息熵分布图的全排列。
计数模块是针对输入的编码S蛋白的基因序列进行处理,下载的编码S蛋白的基因序列自动以80个碱基为一段分好,不需要手动分段,因此直接导入计数程序即可计算出每一段中四种碱基(A,T,C,G)的数量,架构图如图2所示。
图2. 计数模块
处理模块主要是根据香农公式对计数模块输出的结果进行处理,分别计算出整条编码S蛋白基因的15种碱基组合(N = A、C、G、T、AC、AG、AT、CG、CT、GT、ACG、ACT、AGT、CGT、ACGT)的熵值 [
图3. 处理模块
投影模块可以将除含空集外的15个碱基组合中的任意两个的信息熵值作为X、Y轴,生成相关的信息熵分布图像,并使用不同颜色加以区分,也可以直接生成225张散点图,以N中排列顺序输出到同一张大图中,架构如图4所示。
图4. 投影模块
本文意图通过研究新冠病毒变异毒株S蛋白与初期毒株的S蛋白信息熵的差异,找出毒株突变的生物学原理与生物学表达,为生物信息、生命科学等方面提供一定的研究基础,因此我们选择了B.1.1.7毒株中的四条序列和原始序列,提取S蛋白段进行尝试。
选取初期序列(NC_045512.2)作为基准序列和B.1.1.7毒株棘突蛋白的四条序列(三条来自苏格兰的序列CVR5974、CVR6031、CVR6032,一条来自英格兰的序列204590575),使用对齐工具MEGA6对齐五条序列,根据S蛋白的前后碱基排列特征截取五条序列的S蛋白段。
对病毒基因序列的S蛋白段进行碱基对比分析,如图5所示。
图5. 序列信息
从图中信息可以看出自英格兰的病毒序列包含较多N碱基,取自苏格兰的三条病毒序列相似度较高,变异毒株的S蛋白与初期序列均有差异。
如图6为各碱基组合(N = A、C、G、T、AC、AG、AT、CG、CT、GT、ACG、ACT、AGT、CGT、ACGT)对应的信息熵全映射。从图中我们清晰直观地可以看出,五条序列的碱基信息熵区间均在3到4之间,成聚集的情况,而且均存在差别,这表明了突变的发生。
图6. 碱基组合的全映射
如图7所示,可以选取任意目标碱基组合放大,对图像映射进行更有效的处理分析。
图7. 放大目标组合映射
此处我们选取了A、C、AT、CG组合进行细致的规律可视化分析,从图8~11中看出,来自苏格兰的三条序列CVR5974、CVR6031、CVR6032的信息熵映射呈集聚之势,可以推测三者之间的亲属关系,且相对于另外的两条序列的映射,在表现上具有不稳定性。而参考序列NC_045512.2与英格兰的序列204590575在趋势上呈现不变性,但明显可以区别参考序列、苏格兰三条序列与英格兰一条序列之间的关系。突变的一部分特性在图像上得以体现。
S蛋白个别位点的变化就有可能会造成整个病毒的变异,在病毒功能性中起到关键作用。信息熵分布图的差异性就取决于样本的差异性,相同的S蛋白样本只会产生一个特征点。因此通过信息熵分布图像,可以批量导入S蛋白段后放大观察,选取有差异的基因序列继续细化观察,通过全排列的图像可以基本发现出现差异的碱基变化,从而获取到一些特征信息,再配合其他工具细化分析。
同时,信息熵可视化作为一种分析方法,可以扩展应用到一切病毒的研究分析中,包括整段的基因序列分析,有着广泛的应用前景。
图8. EA-EC映射
图9. EA-ECG映射
图10. EAT-EC映射
图11. EAT-ECG映射
本文通过对新型冠状病毒变异毒株和原始病毒进行信息熵计算及投影,在实现过程中可以根据需求调整每组碱基数量,将数据转换为更加直观的彩色散点图,根据需要放大局部并进行分析。相比于传统的生物研究方法,信息熵投影可以提高数据分析效率,为生物信息、计算生物等方面研究提供了新思路和研究基础。
感谢郑智捷教授的悉心指导,感谢云南大学软件学院对本项目的支持。
国家自然科学基金项目62041213。
吴可,张月晴,黄嘉政,董芯宇,张舒智,郑智捷. 新冠病毒基因序列S蛋白信息熵可视化分布Visual Distribution of Information Entropy on SARS-CoV-2 Spike Protein[J]. 计算生物学, 2021, 11(01): 12-19. https://doi.org/10.12677/HJCB.2021.111002
https://doi.org/10.1038/s41586-020-2665-2
https://doi.org/10.21203/rs.3.rs-65305/v2
https://doi.org/10.21203/rs.3.rs-68275/v2