RNA修饰,特别是RNA甲基化,在人类多种生物活动中起着非常重要的调控作用,最常见的修饰包括N6-腺苷酸甲基化(m6A)、N1-腺苷酸甲基化(m1A)、胞嘧啶羟基化(m5C)等。RNA甲基化修饰位点的准确识别对预测多种人类遗传学疾病以及药物研发发挥着关键作用。随着数据集的大量积累,序列数据的分析需求不断增多,一些基于机器学习的预测方法被开发出来,用于甲基化位点的识别。本工作分别从RNA修饰、数据集来源、预测结果的评估标准以及用于预测的算法模型优缺点等方面进行综述,最后指出了RNA甲基化修饰位点预测未来的研究方向。 RNA modification, especially RNA methylation, plays a very important regulatory role in a variety of human biological activities. The most common modifications include N6-adenylate methylation (m6A), N1-adenylate methylation (m1A), cytosine hydroxylation (m5C), etc. Accurate identification of RNA methylation modification sites is crucial for predicting a variety of human genetic diseases and drug development. With the accumulation of a large number of data sets, the requirements of analyzing sequence data are increasing, and some prediction methods based on machine learning have been developed for the identification of methylation sites. This work reviews RNA modification, data set sources, evaluation criteria for prediction results, and advantages and disadvantages of algorithm models used for prediction, and finally presents the research direction of RNA methylation modification site prediction in the future.
RNA修饰,特别是RNA甲基化,在人类多种生物活动中起着非常重要的调控作用,最常见的修饰包括N6-腺苷酸甲基化(m6A)、N1-腺苷酸甲基化(m1A)、胞嘧啶羟基化(m5C)等。RNA甲基化修饰位点的准确识别对预测多种人类遗传学疾病以及药物研发发挥着关键作用。随着数据集的大量积累,序列数据的分析需求不断增多,一些基于机器学习的预测方法被开发出来,用于甲基化位点的识别。本工作分别从RNA修饰、数据集来源、预测结果的评估标准以及用于预测的算法模型优缺点等方面进行综述,最后指出了RNA甲基化修饰位点预测未来的研究方向。
RNA甲基化,位点预测,特征分析,机器学习
Yingshan Ji
School of Computer Science and Software Engineering, University of Science and Technology Liaoning, Anshan Liaoning
Received: Apr. 30th, 2022; accepted: May 30th, 2022; published: Jun. 9th, 2022
RNA modification, especially RNA methylation, plays a very important regulatory role in a variety of human biological activities. The most common modifications include N6-adenylate methylation (m6A), N1-adenylate methylation (m1A), cytosine hydroxylation (m5C), etc. Accurate identification of RNA methylation modification sites is crucial for predicting a variety of human genetic diseases and drug development. With the accumulation of a large number of data sets, the requirements of analyzing sequence data are increasing, and some prediction methods based on machine learning have been developed for the identification of methylation sites. This work reviews RNA modification, data set sources, evaluation criteria for prediction results, and advantages and disadvantages of algorithm models used for prediction, and finally presents the research direction of RNA methylation modification site prediction in the future.
Keywords:RNA Methylation, Site Prediction, Feature Analysis, Machine Learning
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
RNA修饰是指真核生物和原核生物中RNA的转录后修饰。目前,超过100种不同类型的RNA修饰已在所有生物体中进行了表征。RNA修饰发生在多种RNA分子中,包括mRNA、tRNA、rRNA、lncRNA和snoRNA,在RNA剪接、蛋白质定位和翻译、干细胞多能性和人类疾病中发挥着重要作用。mRNA中最常见的内部修饰包括N6-腺苷酸甲基化(m6A)、N1-腺苷酸甲基化(m1A)、胞嘧啶羟基化(m5C)等。其中最主要的是RNA甲基化,通常被称为表观转录组 [
m6A是6位氮的甲基化腺苷,发生在mRNA加工、核输出、翻译调控及RNA降解的不同阶段,包括ncRNA加工和CircRNA翻译。据估计,m6A甲基化大约存在于四分之一的mRNA上。多项研究证明m6A修饰是动态可逆的,能够起到促进环状RNA翻译、通过促进mRNA降解来调控癌症干细胞的分化,以及调控T细胞分化及免疫稳态等作用 [
RNA修饰位点的识别主要基于生化实验检测或计算预测,但随着数据集的大量积累,便突出了生化检测高成本且耗时的缺陷,由此,机器学习算法逐步在RNA修饰预测的领域崭露头角。本文介绍了几种RNA甲基化研究的常用数据集,并就常见的RNA甲基化位点介绍几种基于机器学习的预测方法,根据评估标准对比模型之间的性能优势。
训练高效计算模型的一个重要步骤是构建高质量的数据集。在RNA修饰的研究中,基准数据集大多来源于开源数据库Gene Expression Omnibus (GEO) [
采用四种性能指标评估模型的性能,即Sn(灵敏度)、Sp(特异性)、ACC (准确性)、MCC (马修斯的相关系数)。在这些指标中,Sn表示该模型在预测阳性样本方面的准确性。Sn越高,说明对阳性样本的预测性能较高。同时,Sp越高,说明对阴性样本的预测性能越高。ACC代表了真阳性和真阴性样本预测的成功率。一个好的预测模型应该同时具有高Sn和Sp。如果Sn很高,Sp很低,则产生高假阳性,而如果Sp很高,Sn很低,则产生高假阴性。此外,MCC可以反映结果的可靠性,这对样本比例的不平衡是稳健的。这四个指标的定义如下
S n = T P T P + F N (1)
S P = T N T N + F P (2)
A C C = T P + T N T N + F P + T P + F N (3)
M C C = T P × T N − F P × F N ( T P + F P ) ( T N + F N ) ( T P + F N ) ( T N + F P ) (4)
其中,TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性等值。此外,还使用曲线下面积(AUC)作为评估模型预测性能的有效指标。
N6-甲基腺苷(m6A)是一种典型且广泛的转录后RNA修饰,几乎影响所有细胞周期过程,早期发现后,通过高通量实验从不同物种中鉴定出数百或数千个m6A位点,为构建m6A位点识别的计算机方法研究提供了丰富的数据集资源。数据集的充足使预测m6A位点的方法逐步趋于成熟。现有的m6A预测器主要是使用传统的机器学习算法开发的。
iRNA-Methyl [
近年来,除了传统的机器学习算法,深度学习已成为一种流行且强大的工具,因为它提供了多层网络和非线性映射操作,以数据驱动的方式检测潜在的复杂模式。深度学习方法在解决几个预测问题,如RNA剪接、蛋白质结构和蛋白质修饰等方面已经证明了优于传统机器学习算法的性能。Nazari等人则提出了一种基于卷积神经网络(CNN)的m6A预测模型,名为iN6-Methy (5-step) [
Method | Species | ML-Algorithm | Sn | Sp | ACC | MCC |
---|---|---|---|---|---|---|
iRNA-Methyl | S. cerevisiae | SVM | 0.706 | 0.606 | 0.656 | 0.290 |
M6AMRFS | S. cerevisiae | XGBoost | 0.752 | 0.733 | 0.743 | 0.099 |
A. thaliana | 0.807 | 0.814 | 0.811 | 0.621 | ||
M. musculus | 0.828 | 0.758 | 0.793 | 0.758 | ||
H. sapiens | 0.820 | 1.000 | 0.910 | 0.833 | ||
iN6-Methyl(5-step) | S. cerevisiae | CNN | 0.762 | 0.746 | 0.754 | 0.507 |
M. musculus | 0.789 | 1.000 | 0.895 | 0.807 | ||
H. sapiens | 0.821 | 1.000 | 0.911 | 0.835 | ||
pm6A-CNN | S. cerevisiae | CNN | 0.846 | 0.855 | 0.850 | 0.703 |
A. thaliana | 0.923 | 0.926 | 0.925 | 0.850 | ||
M. musculus | 0.904 | 0.972 | 0.938 | 0.880 | ||
H. sapiens | 0.886 | 0.986 | 0.936 | 0.878 | ||
M6A-NeuralTool | S. cerevisiae | CNN | 0.715 | 0.716 | 0.715 | 0.466 |
A. thaliana | 0.939 | 0.944 | 0.942 | 0.872 | ||
M. musculus | 0.915 | 1.000 | 0.958 | 0.912 | ||
H. sapiens | 0.920 | 1.000 | 0.960 | 0.882 |
表1. M6A修饰位点预测工具的性能
确定m5C位点在RNA中的位置对于理解转录后修饰的机制和功能至关重要,而传统鉴定m5C的高通量测序方法当面临大量待测数据时,需要花费大量时间与实验成本,大大影响了检测效率。近年来,已然发展了一些用于识别M5C位点的机器学习方法。M5C-PseDNC [
Method | Species | ML-Algorithm | Sn | Sp | ACC | MCC |
---|---|---|---|---|---|---|
m5C-PseDNC | H. sapiens | SVM | 0.850 | 0.958 | 0.904 | 0.810 |
iRNAm5C-PseDNC | H. sapiens | Random Forest | 0.817 | 0.950 | 0.883 | 0.774 |
RNAm5CPred | H. sapiens | SVM | 0.846 | 0.855 | 0.850 | 0.703 |
PEA-m5C | A. thaliana | Random Forest | 0.432 | 0.454 | 0.443 | −0.114 |
表2. M5C修饰位点预测工具的性能
目前,存在两个识别N1甲基腺苷位点的机器学习方法,即RAMPred和ISGm1A。RAMPred [
Method | Species | ML-Algorithm | Sn | Sp | ACC | MCC |
---|---|---|---|---|---|---|
RAMPred | M. musculus | SVM | 0.975 | 1.000 | 0.987 | 0.970 |
H. sapiens | 0.984 | 0.999 | 0.991 | 0.980 | ||
S. cerevisiae | 0.957 | 1.000 | 0.978 | 0.960 | ||
ISGm1A | H. sapiens | Random Forest | 0.832 | 0.838 | 0.835 | 0.670 |
表3. M1A修饰位点预测工具的性能
随着生物信息领域的发展RNA修饰在调节基因表达和疾病发病机制中的重要性,已被人们所熟知。近年来,对于RNA修饰位点的预测技术在理论深化和算法改进等方面都取得了一定的进展,但发展的过程中也发现了一些存在的问题。在论述研究的过程中,主要的发现是大多数RNA修饰位点是别的方法共享相同的技术、分类算法,但应用在相同或不同位点的识别表现结果均有所差异。其中,模型性能与基准数据集的质量和大小相关。除此之外,目前基于机器学习的预测模型的训练数据集样本长时间未更新,取样的RNA修饰位点数据不够完善导致泛化能力不强,且对于一些实验室的数据集没有明确的衡量基准,不同数据集训练模型的结果对于模型间的性能比较,有失偏颇。其次,所采用的分类算法大体还是以传统分类算法SVM为主,只有部分预测模型,采用了深度学习中的卷积神经网络CNN。再者,从预测结果上看,还有一定的提升空间。
未来的研究工作可围绕着所存在的已知问题开展,扩大数据集规模,建立明确的数据集衡量标准,增加物种数量,利用深度学习算法进一步提高RNA甲基化位点预测精度,为基因组学的研究打下基础。由人工神经网络发展而来的深度学习,其算法模型拥有更强的泛化能力,对未知数据集有更准确的拟合结果,大量数据集的训练下的深度学习算法,可提高RNA甲基化修饰位点的预测准确率。基于深度学习模型的RNA甲基化修饰位点的预测将是未来的研究方向之一。
纪璎珊. 基于机器学习的RNA甲基化修饰位点预测的研究进展Research Progress of RNA Methylation Modification Site Prediction Based on Machine Learning[J]. 计算生物学, 2022, 12(02): 9-15. https://doi.org/10.12677/HJCB.2022.122002
https://doi.org/10.1038/nrm3785
https://doi.org/10.1038/nature11233
https://doi.org/10.1093/nar/gkv895
https://doi.org/10.3390/genes10020102
https://doi.org/10.1093/nar/gks1193
https://doi.org/10.1093/nar/gkx934
https://doi.org/10.1016/j.ab.2015.08.021
https://doi.org/10.1093/nar/gkw104
https://doi.org/10.3389/fgene.2018.00495
https://doi.org/10.1016/j.chemolab.2019.103811
https://doi.org/10.1109/ACCESS.2020.3002995
https://doi.org/10.1109/ACCESS.2021.3054361
https://doi.org/10.1039/C6MB00471G
https://doi.org/10.18632/oncotarget.17104
https://doi.org/10.1093/bib/bbz041
https://doi.org/10.1016/j.omtn.2019.10.008
https://doi.org/10.1038/srep31080
https://doi.org/10.1109/ACCESS.2020.2991070