副溶血弧菌(Vibrio parahaemolyticus)是造成三疣梭子蟹批量死亡的重要病原之一。随着测序技术发展,基于IIlumina测序及生物信息学技术手段筛选耐病基因已成为可能。本研究利用全基因组重测序的方法对三疣梭子蟹易感群体和耐感群体的肌肉组织进行IIlumina测序,过滤获得51.867G的clean reads。将clean reads数据与已有梭子蟹参考基因组进行比对,覆盖比对率高达85%以上,覆盖深度也达到25X,同时还检测到了36,929个单核苷酸多态性位点(single nucleotide polymorohsms, SNP)和145,790个小片段插入缺少位点(insertion/deletion, InDel)。以上位点通过SNP/InDel频率分布,在染色体上作图进行精细定位,获得了257个SNPs和184个InDels。以上位点进一步通过同义突变筛查,获得了55个SNP位点和32个InDel位点。对87个位点设计引物进行验证,利用一代测序技术和ContigExpress软件对变异位点进行SNP分型,结果表明:与参考基因组相比,55个SNP位点和32个InDel位点中,分别有23个SNP标记和10个InDel标记存在碱基变化;继续利用上述引物,分别在易感群体和耐感群体上进行扩增测序,最终筛选出9个SNP标记和2个InDel标记(P < 0.05),并瞄定到8个基因上,推测其中有5个基因属于抗逆抗病基因可用于改良三疣梭子蟹优良性状。 Vibrio parahaemolyticus is one of the most important pathogens that cause the batch death of the swimming crab. With the development of sequencing technology, it has been possible to screen disease resistance genes based on Illumina sequencing and bioinformatics technology. In this study, high-throughput Illumina sequencing technology was used to perform a whole-genome resequencing of muscle tissues in susceptible and resistant populations of P. trituberculatus, and filtered to obtain 51.867G clean reads. The sequencing results were compared with the genome of swimming crab. The coverage ratio was above 85% and the coverage depth reached 25X. At the same time, 36,929 single nucleotide polymorohsms and 145,790 Insert/missing mutant fragments were detected. Subsequently, the SNPs/InDels frequency distribution was mapped on the chromosome for fine localization, and finally 257 SNPs and 184 InDels were obtained. We functionally annotated the above results and found that these loci are non-synonymous mutations, mainly concentrated in introns and intergenic regions. We screened the sites obtained from the resequencing of P. trituberculatus genomes, selected 55 SNP sites and 32 InDel sites to design primers for verification, and used the first-generation sequencing technology and ContigExpress software to perform SNP genotyping on mutation sites. The results showed that compared with the reference genome, there were base changes in 55 SNP loci and 32 InDel loci, respectively in 23 SNP loci and 10 InDel loci. Continuing to use the above primers to perform amplification and sequencing on susceptible individuals and resistant individuals, respectively, finally, 9 SNP markers and 2 InDel markers were selected (P < 0.05), and 8 genes were targeted. It was speculated that 5 genes belonged to resistance genes and could be used to improve the good traits of Portulus trisulatus.
副溶血弧菌(Vibrio parahaemolyticus)是造成三疣梭子蟹批量死亡的重要病原之一。随着测序技术发展,基于IIlumina测序及生物信息学技术手段筛选耐病基因已成为可能。本研究利用全基因组重测序的方法对三疣梭子蟹易感群体和耐感群体的肌肉组织进行IIlumina测序,过滤获得51.867G的clean reads。将clean reads数据与已有梭子蟹参考基因组进行比对,覆盖比对率高达85%以上,覆盖深度也达到25X,同时还检测到了36,929个单核苷酸多态性位点(single nucleotide polymorohsms, SNP)和145,790个小片段插入缺少位点(insertion/deletion, InDel)。以上位点通过SNP/InDel频率分布,在染色体上作图进行精细定位,获得了257个SNPs和184个InDels。以上位点进一步通过同义突变筛查,获得了55个SNP位点和32个InDel位点。对87个位点设计引物进行验证,利用一代测序技术和ContigExpress软件对变异位点进行SNP分型,结果表明:与参考基因组相比,55个SNP位点和32个InDel位点中,分别有23个SNP标记和10个InDel标记存在碱基变化;继续利用上述引物,分别在易感群体和耐感群体上进行扩增测序,最终筛选出9个SNP标记和2个InDel标记(P < 0.05),并瞄定到8个基因上,推测其中有5个基因属于抗逆抗病基因可用于改良三疣梭子蟹优良性状。
基因组重测序,位点
Deping Yan
The Naval Academy, Bengbu Anhui
Received: Oct. 18th, 2023; accepted: Dec. 5th, 2023; published: Dec. 13th, 2023
Vibrio parahaemolyticus is one of the most important pathogens that cause the batch death of the swimming crab. With the development of sequencing technology, it has been possible to screen disease resistance genes based on Illumina sequencing and bioinformatics technology. In this study, high-throughput Illumina sequencing technology was used to perform a whole-genome resequencing of muscle tissues in susceptible and resistant populations of P. trituberculatus, and filtered to obtain 51.867G clean reads. The sequencing results were compared with the genome of swimming crab. The coverage ratio was above 85% and the coverage depth reached 25X. At the same time, 36,929 single nucleotide polymorohsms and 145,790 Insert/missing mutant fragments were detected. Subsequently, the SNPs/InDels frequency distribution was mapped on the chromosome for fine localization, and finally 257 SNPs and 184 InDels were obtained. We functionally annotated the above results and found that these loci are non-synonymous mutations, mainly concentrated in introns and intergenic regions. We screened the sites obtained from the resequencing of P. trituberculatus genomes, selected 55 SNP sites and 32 InDel sites to design primers for verification, and used the first-generation sequencing technology and ContigExpress software to perform SNP genotyping on mutation sites. The results showed that compared with the reference genome, there were base changes in 55 SNP loci and 32 InDel loci, respectively in 23 SNP loci and 10 InDel loci. Continuing to use the above primers to perform amplification and sequencing on susceptible individuals and resistant individuals, respectively, finally, 9 SNP markers and 2 InDel markers were selected (P < 0.05), and 8 genes were targeted. It was speculated that 5 genes belonged to resistance genes and could be used to improve the good traits of Portulus trisulatus.
Keywords:The Whole Genome Resequencing, Site
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
三疣梭子蟹(Portunus trituberculatus)是中国重要的养殖蟹类,已经吸引了广泛的研究,这需要越来越多的基因组背景知识。迄今为止,三疣梭子蟹尚没有完整的全基因组信息,而且该物种的转录组信息也很少。因此,利用下一代测序技术对其基因组和转录组进行测序分析,系统地研究三疣梭子蟹在弧菌感染下的抗性基因,不仅可以筛选到一些耐弧菌免疫基因,阐明其代谢途径,还可以挖掘到一些跟弧菌抗性相关的分子标记,为培育抗逆抗病的三疣梭子蟹新品种提供理论基础,使三疣梭子蟹健康可持续发展。
Sanger测序等一代测序技术曾在解析基因组序列方面发挥了巨大的作用,然而一代测序也存在着成本高、周期长、产出率低等诸多不足之处,一直无法在世界范围内得以大力推广。近些年来,随着科技进步“下一代测序”(Next-Generation Sequencing, NGS)以高通量测序(High-Throughput Sequencing)为标志,凭借其较为低廉的价格、周期短和产出率高的优势在动植物领域得到广泛的应用。目前,下一代测序的主要测序技术有美国罗氏公司(Roche)的454基因组测序仪、Illumina公司开发的Illumina测序仪和ABI公司的SOLID连接酶测序平台,这些测序平台均采用循环芯片测序法(cyclic-array sequencing),并被誉为第二代测序技术 [
全基因组测序(whole genome sequencing)是对未知基因组序列的物种进行个体的基因组测序,能够快速的鉴定到大量高密度的SNP位点,可用于重要候选基因的筛选、遗传变异检测及群体遗传进化分析等,因而全基因组测序广泛应用于群体进化、群体结构、种群历史、遗传定位和连锁图谱的构建,例如王金昌等对海洋贝莱斯芽胞杆菌Bam-6基因族进行注释发现了贝莱斯芽胞杆菌代谢合成物的同源物、毛明光等对太平洋鳕鱼线粒体基因族进行测序分析发现一段保守序列 [
重测序是以物种的参考基因组序列为依据,进行个体或群体间的基因组测序,并对其差异信息进行分析的一种测序方法。相比较于传统的方法,重测序作为二代测序具有许多优点:1) 信息全面,可以获得全基因组的序列信息;2) 信息精确,可以精确挖掘到每个SNP位点,直接找到致病位点;3) 产出效率高,可以挖掘到许多性状相关的关键基因 [
关于哺乳动物的研究中,利用WGS技术进行遗传分析已经得到广泛应用。Leif Andresson团队对9个群体的鸡进行WGS测序筛选到3个重要的驯化基因;黄路生教授团队对11个中国地方猪种和3个野生猪种进行了WGS测序,筛选到了210个与环境适应性相关的基因;Stothard团队运用重测序的方法首次在美国荷斯坦牛和黑安格斯牛上开展了拷贝数变异(copy number variation, CNV)检测 [
实验材料均来自于青岛黄海水产研究所,分别来自于健康存活未感染副溶血弧菌的80日龄梭子蟹和感染副溶血弧菌72 h后存活梭子蟹的肌肉组织。
将检验合格的DNA样品等量混合为两个混合池,分别命名为易感DNA混合池(CG)和耐感DNA混合池(CT) [
建库具体流程如图1所示。文库制备完成后,采用Qubit2.0进行初步定量,将文库稀释至1 ng/ul。然后使用Agilent 2100检测文库的insert size。待检测insert size符合标准后,为确保文库质量,还需采用Q-PCR法准确定量文库有效浓度(文库有效浓度 > 2 nM)。文库浓度检测合格后,再按有效浓度和目标下机数据量的需求pooling对不同文库进行Illumina HiSeq TM PE150测序 [
由于测序获得的是raw reads或 Sequenced Reads,其中可能带有大量低质量的reads,为了得到clean reads,需要对raw reads进行信息质量分析,其步骤如下 [
1) 去除带接头(adapter)的reads pair;
2) 当单端测序read中含有的N的含量超过该条read长度比例的10%时,需要去除此对paired reads;
3) 当单端测序read中含有的低质量(Q ≤ 5)碱基数超过该条read长度比例的50%时,需要去除此对paired reads。
图1. 建库测序流程
应使用Burrows-Wheeler alignment tool (BWA)比对软件将过滤后的有效数据与参考基因组进行比对,参考基因组统计信息见下表1所示,使用SAMTOOLS软件去除比对结果重复 [
图2. 全基因组生物信息分析流程
基因组组装的 序列总数 | 基因组组装 结果总长度 | 碱基G和C的 含量(%) | 组装结果中N 所占的比例 | 累积长度刚刚超过全部组装序列总长度50%时的那条scaffold的长度 | 累积长度刚刚超过全部组装序列总长度90%时的那条scaffold的长度 |
---|---|---|---|---|---|
41 | 850,292,103 | 36.10 | 13.17 | 38,829,317 | 17,398,227 |
表1. 参考基因组基本情况统计
SNP (single nucleotide polymorphism,单核苷酸多态性)是指在基因组水平上由于单核苷酸发生变异而引起DNA序列产生多态性,包括单碱基的颠换或转换等 [
我们以参考基因组作为参考,分析计算易感和耐感个体在每个SNP位点中的SNP-index (SNP的频率)。如图3所示是对个体池中SNP-index计算的一种统计方法,其原理是以参考基因组或某一亲本作为参考,通过测序reads以便于对碱基位点的碱基进行统计分析。统计在某一个碱基位点处个体池和亲本或者参考基因组是否出现不同或相同的reads,并统计其中不相同条数占总条数的比例,该比例即为SNP-index。其中,完全与其参考基因组或亲本完全与其不同的SNP-index记为1,相同的则记为0。按照此方法计算出敏感池和耐感池的全部SNP-index。为减少测序错误和比对错误造成的影响,对计算出SNP-index后的多态性位点进行过滤,过滤标准如下:
1) 两个个体中SNP-index都小于0.3,并且SNP深度都小于7的位点,过滤掉;
2) 一个个体SNP-index缺失的位点,过滤掉。
图3. SNP-index计算方法
得到过滤后的多态性位点后,对SNP-index在染色体上的分布进行作图。默认选择1 Mb为窗口,1 kb为步长,计算每个窗口中SNP-index的平均值来反应个体的SNP-index分布。同时对SNP频率差异分布进行作图,计算Δ(SNP-index),即两个个体SNP-index作差:Δ(SNP-index) = SNP-index (耐副溶血弧菌弧菌性状B) – SNP-index (副溶血弧菌敏感性状A)。进行1000次置换检验,选取95% (蓝色)置信水平作为筛选的阈值。
InDel-index分析方法同1.3.2。
为了不忽略掉微效QTL的影响,在全基因组范围内挑选候选SNP和InDel,如果参考亲本和子代表型相同,则挑选子代池中All-index接近0的位点;如果参考亲本和子代表型相反,则挑选子代池中All-index接近1的位点作为候选位点。
SNP标记筛选原则:
1) 选择个体间Δ(SNP-index)接近1的标记;
2) 选择多个标记位于一个Conting上的;
3) 对产生移码突变或stop gain或stop loss或非同义突变或者可变剪接位点的位点优先进行筛选。
InDel标记筛选原则:
1) 选择个体间Δ(InDel-index)接近1的标记;
2) 选择多个标记位于一个Conting上的;
3) 按照插入片段长度进行排序。
引物设计原则:
1) 避开在标记左右50 bp处设计引物;
2) 扩增片段在300~500 bp左右;
3) 引物长度在18~23 bp;
4) 引物退火温度控制在55℃~65℃之间,上下游引物温度差最好控制在3℃之间;
5) 引物GC含量控制在40%~60%之间,上下游引物GC含量差最好不要超过5%。
采用PCR产物测序的方法在CG和CT群体里对耐副溶血弧菌性状相关候选分子标记进行验证:
1) 首先在标记位点侧翼序列设计引物,其中至少有一条引物距离标记位点70 bp以上;
2) 利用设计好的引物分别以CG和CT混合DNA材料为模板进行PCR扩增,并将成功扩增的PCR产物进行测序,测序引物选择离标记位点较远的引物;
3) 利用ContigExpress软件分析测序峰图,挑选CG和CT两组在对应位置测序峰图有较大差异的标记继续进行个体DNA模板的PCR扩增和测序分析;
4) 根据测序结果统计每个个体的基因型,并通过SPSS软件分析标记与耐副溶血弧菌性状是否相关 [
具体的操作步骤如下:
1) PCR扩增体系和程序
利用全式金公司的高保真酶进行PCR扩增。设置PCR反应程序为1,95℃,2 min;2,95℃,20 s;3,55℃,20 s;4,72℃,30 s;2~4,35个循环;5,72℃,5 min;6,4℃保存。PCR反应体系见图4。
图4. PCR扩增体系
2) 电泳检测
用琼脂糖配置1%的电泳胶,把制好的琼脂糖凝胶放入水平电泳槽中,进行电泳检测实验,电泳时间设定为30 min,电泳结束后用凝胶成像系统观察并拍照记录,切割出明亮且条带单一的电泳胶样品送置青岛擎科生物有限公司进行测序。
3) 统计分析
利用ContigExpress软件对测序峰图进行分析,选择耐感群体混合模板和易感群体混合模板中碱基位置出现显著差异的引物,并继续使用该引物,以每个个体中进行PCR扩增验证,扩增条件和上述一致,然后将明亮且位置大小符合的电泳条带送去测序 [
再将返回的个体测序结果用ContigExpress软件进行观察并将基因型信息导入SPSS软件,利用卡方检验计算P值,选出P < 0.05的标记为候选标记。
由于现阶段的技术不足,需要在测序前添加上一些接头,导致部分测序结果中也会含有冗余的接头序列信息;此外,测序时也可能会产生一些低质量的序列信息;因此对序列的质量进行评估以及过滤对后续的结果分析极为重要。经测序质量分布检查、测序错误率分布检查以及测序数据过滤后,统计结果表明测序结果极佳,质量都在Q30以上,错误率低,有效数据质量高,如图5和图6所示。
本次测序共产生Raw data高达51.963G,过滤后的Clean data也有51.867G,本次测序质量高(Q20 ≥ 94%、Q30 ≥ 87%),GC含量也在41%左右。因此,本次实验样本的数据量充足,GC分布正常且测序质量高,符合建库测序成功标准。测序质量数据汇总见表2。
使用BWA软件将易感池和耐感池的测序数据和梭子蟹参考基因组进行比对。比对结果表明,所有样本的比对率在85%以上,对参考基因组(排除N区)的平均覆盖深度在25X以上,1X覆盖度(至少有一个碱基的覆盖)在79%以上。比对结果正常,可用于后续的标记检测分析。具体Reads与参考基因组比对情况统计如表3所示。
Sample | Raw Base (bp) | Clean Base (bp) | Effective Rate (%) | Error Rate (%) | Q20 (%) | Q30 (%) | GC Content (%) |
---|---|---|---|---|---|---|---|
C | 25,917,187,500 | 25,867,454,700 | 99.81 | 0.035 | 94.22 | 87.475 | 41.495 |
CT | 26,046,389,400 | 25,999,858,800 | 99.82 | 0.035 | 94.255 | 87.595 | 40.96 |
表2. 测序数据质量情况汇总
样本名 | 双端比对 reads条数数 | 总reads条数 | 比对率 | 平均测序深度 | 参考基因组中至少有1个碱基覆盖的位点占基因组的百分比 | 参考基因组中至少有4个碱基覆盖的位点占基因组的百分比 |
---|---|---|---|---|---|---|
C | 147,383,735 | 172,449,698 | 85.46 | 25.05 | 79.15 | 76.69 |
CT | 147,651,575 | 173,332,392 | 85.18 | 25.32 | 79.08 | 76.76 |
表3. 测序深度及覆盖度统计
纵坐标为单碱基错误率,横坐标为reads的碱基位置;前150 bp为双端测序序列的第一端测序Reads的质量值分布情况,后150 bp为另一端测序reads的质量值分布情况。
The abscissa is the base position of reads and the ordinate is the single base error rate; the first 150 bp is the quality value distribution of the first-end sequencing reads of the double-end sequencing sequence, and the last 150 bp is the quality value distribution of the sequencing reads at the other end.
图5. 测序质量分布图
有效数据经与参考基因组比对,分别检测到36,929个SNP标记和145,790个InDel位点。候选位点的注释情况如表4和表5所示。
(1) Adapter related:因有接头,过滤掉的 reads数及其占总raw reads数的比例。(2) Containing N:因N含量超过10%,过滤掉的reads数及其占总raw reads数的比例。(3) Low quality:因低质量,过滤掉的reads数及其占总raw reads数的比例。(4) Clean reads:最终得到的clean reads数及其占总raw reads数的比例。
(1) Adapter related: Due to the adapter, the number of reads filtered out and its proportion to the total number of raw reads. (2) Containing N: because the N content exceeds 10%, the number of reads filtered out and its proportion to the total number of raw reads. (3) Low quality: due to low quality, the number of reads filtered out and its proportion to the total number of raw reads. (4) Clean reads: The final number of clean reads and their proportion to the total number of raw reads.
图6. 原始数据过滤结果
类别 | SNP数量 | |
---|---|---|
上游 | 6269 | |
外显子区域 | 获得终止子变异 | 25 |
失去终止子变异 | 4 | |
同义突变 | 3206 | |
非同义突变 | 1767 | |
内含子区域 | 78,726 | |
剪切位点 | 18 | |
下游 | 5136 | |
基因上游1 Kb区域,同时也在另一基因的下游1 Kb区域 | 386 | |
基因之间 | 270,857 | |
转换 | 229,986 | |
颠换 | 139,243 | |
转换和颠换的比率 | 1651 | |
总计 | 369,229 |
表4. SNP检测及注释结果统计
类别 | InDel数量 | |
---|---|---|
上游 | 2548 | |
外显子区域 | 获得终止子变异 | 6 |
失去终止子变异 | 8 | |
缺失造成移码 | 240 | |
插入造成移码 | 114 | |
非缺失移码 | 80 | |
非插入移码 | 57 | |
内含子区域 | 29,213 | |
剪切位点 | 19 | |
下游 | 2268 | |
基因上游1 Kb区域,同时也在另一基因的下游1 Kb区域 | 186 | |
基因之间 | 110,027 | |
插入 | 60,375 | |
缺失 | 85415 | |
总计 | 145790 |
表5. InDel检测及注释结果统计
经SNP和InDel合并后的频率差异分析后,得到成功注释的SNP标记257个,InDel标记187个。在注释结果中选择了55个SNP标记和32个InDel标记进行验证,初步验证结果表明23个SNP标记中有10个标记与检测结果一致,阳性率为41.82%;32个InDel标记中有10个标记与检测结果一致,阳性率为31.25% (InDel标记由于序列的复杂性导致测序结果较低,可能对阳性率造成了影响)。
继续利用上述位点存在显著差异的引物,分别在易感个体和耐感个体上进行扩增测序,最终筛选出9个SNP标记和2个InDel标记,统计结果如表6所示。
Pose | Mutation type | ΔSNP-index | Variant | Chi-square value | P value | Prediction function |
---|---|---|---|---|---|---|
Contig0_13982611 | T→G | 0.72 | intronic | 6.162 | 0.046 | dual oxidase maturation factor 1 |
Contig242_653632 | A→G | 0.70 | intronic | 10.667 | 0.005 | WAP four-disulfide core domain protein 1 |
Contig26_556258 | G→A | 0.70 | intronic | 6.044 | 0.049 | GDNF family receptor |
Contig405_623426 | G→A | 0.80 | intronic | 7.940 | 0.014 | Gustatory receptor trehalose |
Contig7_625237 | C→T | 0.69 | intronic | 17.143 | 0.001 | Radial spoke head protein |
Contig81_1278459 | G→A | 0.7 | downstream | 8.640 | 0.013 | DNA-damage-inducible transcript 4 |
Contig7_625234 | G→T | 0.69 | intronic | 11.378 | 0.003 | Radial spoke head protein |
Contig104_411267 | G→A | 0.70 | intronic | 11.911 | 0.003 | solute carrier family 10 |
Contig7_4587668 | A→T | 0.77 | intronic | 13.972 | 0.001 | Methyltransferase |
Contig7_4584002 | G→GA | 0.7 | intergenic | 9.6 | 0.02 | Methyltransferase |
Contig405_597023 | GAA→A | 0.76 | UTR3 | 6.096 | 0.047 | Gustatory receptor trehalose |
Contig3_6549174 | G→GC | 0.71 | intronic | 13.333 | 0.001 | Gap junction beta-5 protein |
表6. 与弧菌抗性相关标记及其定位基因功能预测
由于基因组学研究技术手段的飞快发展,使得检测大规模、高通量的动物基因组内的变异位点变得越来越容易 [
目前Illumina公司的测序平台是应用最为广泛的二代测序平台,本研究即采用Illumina HiSeqTMPE150平台进行测序。碱基的质量高低与测序错误率息息相关,鉴于当前测序技术扔存在局限性,因此测序片段前段和末端几个cycles的错误率会偏高 [
SNPs是基因组中广泛存在的突变,基于基因组中的不同位置,SNP可以通过不同的机制来影响基因的翻译或转录,基因调控区内SNP发生突变可能会影响相关基因的表达像周慧等发现miR-17-92基因启动子区rs1813389 A/G碱基发生颠换可能于子宫内膜癌症有关;非同义编码区SNP突变直接改变基因编码蛋白的氨基酸组成,对蛋白质功能域的出现具有至关重要的作用像黎江溪发现TNNC1基因编码区第44个碱基由G转换成C可能造成肥厚型心肌病高风险 [
在本研究中,从两个群体的WGS分析中共鉴定出257个SNP和184个InDel,并成功进行了功能注释,并没有检测到非同义突变,大部分标记处于内含子和基因之间。其中位于内含子区域的SNP和InDel分别占比18.29%和25%;位于基因之间区域的SNP和InDel分别占比78.6%和71.7%。
阎德平. 基于全基因组重测序策略对三疣梭子蟹耐副溶血弧菌抗性相关基因进行挖掘 Mining of Genes Associated with V. parahemolytica of the Swimming Crab Resistance Based on the Whole Genome Resequencing Strategy[J]. 海洋科学前沿, 2023, 10(04): 272-284. https://doi.org/10.12677/AMS.2023.104028
https://doi.org/10.1111/j.1574-6968.2001.tb10710.x
https://doi.org/10.16409/j.cnki.2095-039x.2023.02.012
https://doi.org/10.7541/2019.003
https://doi.org/10.3969/j.issn.1674-7968.2016.12.017
https://doi.org/10.1038/ng.3199
https://doi.org/10.1038/nature08832
https://doi.org/10.16420/j.issn.0513-353x.2021-0194
https://doi.org/10.13430/j.cnki.jpgr.20190130001
https://doi.org/10.1038/nrg2986
https://doi.org/10.1007/s10126-017-9747-7
https://doi.org/10.7666/d.D01025793
https://doi.org/10.1146/annurev-genom-082908-150116
https://doi.org/10.1534/g3.116.036822
https://doi.org/10.1016/j.fsi.2016.09.023