长链非编码RNA (lncRNA)与微小RNA (miRNA)都是非编码RNA,越来越多的证据表明两者之间的相互作用与癌症的发展、基因调控、细胞代谢等生物学过程高度相关。与此同时,随着RNA序列技术的快速发展人们发现了许多新的lncRNA和miRNA,这可能有助于探索新的基因调控模式,人们对于lncRNA-miRNA相互作用的研究兴趣也随之越来越大。为此,我们回顾了目前lncRNA-miRNA相互作用关系预测的研究进展,我们针对部分研究人员的最新研究成果着重调查了他们使用的计算方法和数据库。调查结果显示深度学习已经成为lncRNA-miRNA相互作用关系预测的首选策略,这可能是由于深度学习基础设施和专业知识的快速增长。虽然这些方法中有许多都有明显的局限性,但深度学习有望在未来lncRNA-miRNA相互作用关系预测的领域取得更加充分的应用。 Long non-coding RNA (LncRNA) and microRNA (miRNA) are both noncoding RNA. More and more evidence shows that the interaction between them is highly related to biological processes such as cancer development, gene regulation and cell metabolism. At the same time, with the rapid devel-opment of RNA sequence measuring technology, many new lncRNAs and miRNAs have been found, which may help to explore new gene regulation modes, and people are more and more interested in the research of lncRNA-miRNA interaction. Therefore, we reviewed the current research progress in the prediction of lncRNA-miRNA interaction. We focused on the calculation methods and databases used by some researchers according to their latest research results. The results show that deep learning has become the preferred strategy for the prediction of lncRNA-miRNA interaction, which may be due to the rapid growth of deep learning infrastructure and expertise. Although many of these methods have obvious limitations, deep learning is expected to become the basis of modern lncRNAX-miRNA interaction prediction algorithms.
长链非编码RNA (lncRNA)与微小RNA (miRNA)都是非编码RNA,越来越多的证据表明两者之间的相互作用与癌症的发展、基因调控、细胞代谢等生物学过程高度相关。与此同时,随着RNA序列技术的快速发展人们发现了许多新的lncRNA和miRNA,这可能有助于探索新的基因调控模式,人们对于lncRNA-miRNA相互作用的研究兴趣也随之越来越大。为此,我们回顾了目前lncRNA-miRNA相互作用关系预测的研究进展,我们针对部分研究人员的最新研究成果着重调查了他们使用的计算方法和数据库。调查结果显示深度学习已经成为lncRNA-miRNA相互作用关系预测的首选策略,这可能是由于深度学习基础设施和专业知识的快速增长。虽然这些方法中有许多都有明显的局限性,但深度学习有望在未来lncRNA-miRNA相互作用关系预测的领域取得更加充分的应用。
lncRNA-miRNA相互作用,深度学习,数据库,计算框架
Wenya Wang
School of Computer Science and Software Engineering, University of Science and Technology Liaoning, Anshan Liaoning
Received: Mar. 6th, 2022; accepted: Apr. 6th, 2022; published: Apr. 15th, 2022
Long non-coding RNA (LncRNA) and microRNA (miRNA) are both noncoding RNA. More and more evidence shows that the interaction between them is highly related to biological processes such as cancer development, gene regulation and cell metabolism. At the same time, with the rapid development of RNA sequence measuring technology, many new lncRNAs and miRNAs have been found, which may help to explore new gene regulation modes, and people are more and more interested in the research of lncRNA-miRNA interaction. Therefore, we reviewed the current research progress in the prediction of lncRNA-miRNA interaction. We focused on the calculation methods and databases used by some researchers according to their latest research results. The results show that deep learning has become the preferred strategy for the prediction of lncRNA-miRNA interaction, which may be due to the rapid growth of deep learning infrastructure and expertise. Although many of these methods have obvious limitations, deep learning is expected to become the basis of modern lncRNAX-miRNA interaction prediction algorithms.
Keywords:lncRNA-miRNA Interactions, Deep Learning, Database, Computational Frame
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
非编码RNA (ncRNAs) [
MiRBase [
Starbase是由中山大学开发的中国生物信息学最具影响力的数据库,该数据库用过实验获得了丰富的 miRNA-ncRNA、miRNA-mRNA、RBP-RNA和RNA-RNA的数据。LncRNASNP是由华中科技大学郭安源教授团队所开发,提供不同类型的相关数据资源,包括lncRNA表达谱、扩展的lncRNA相关疾病和lncRNA的非编码变异。Starbase、LncRNASNP都包含了lncRNA-miRNA相互作用的数据,以及与相互作用相关的许多附加属性,且并不仅仅局限于lncRNA,还包含各种其他的相互作用信息。
MiRBase、GENCODE、GreeNC、CANTATAdb包含lncRNA与miRNA序列的详细信息。虽然不直接包含作用关系信息,但这些可以为特征提取工作提供基础数据从而进一步提高预测性能,是lncRNA-miRNA相互作用关系预测研究中必不可少的基础数据。
在使用深度学习算法过程中,针对不同的问题需要采用不同的模型评估标准,主要有分类和回归俩大类。分类问题采用混淆矩阵、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线来作为模型评估指标。混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息,矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。TP代表实际为正类且预测为正类的样本,FP代表实际为负类而预测为正类的样本,TN代表实际为负类且预测也为负类的样本,FN代表实际为正类而预测为负类的样本。混淆矩阵如图1所示:
图1. 混淆矩阵
准确率(Accuracy)是指被预测分类正确的样本占总样本的比;精确率(Precision)是指被预测为正样本的数据中,实际也为正样本的占比;召回率(Recall)是指在实际正样本中被预测正确的样本占比;F-值(F1 score)是Precision和Recall的调和平均值。以上评价指标的公式如下:
ACC = TP + TN TP + FP + FN + TN
Precision = TP TP + FP
Recall = TP TP + FN
F 1 = 2 × TP 2 × TP + FP + FN = 2 ⋅ PRE ⋅ REC PRE + REC
其中ROC曲线为受试者工作特性曲线,横坐标为负正类率(FPR),纵坐标为真正类率(TPR),AUC为ROC曲线下的面积,取值在(0,1)之间,且AUC值越接近1,ROC曲线越接近左上角,该分类器的性能越好。FPR与TPR的公式如下:
FPR = TP TP + FN
TPR = FP FP + TN
大多数lncRNA-miRNA相互作用关系预测算法需要利用由相关数据库获取到的数据来进行预测。lncRNA-miRNA相互作用关系预测的计算策略主要分为机器学习和深度学习两类,预测方法主要包括深度学习、基于图的方法、相似性网络、基于树的方法。以往的机器学习是利用lncRNA和miRNA分子序列信息之间已知的相互作用,利用已知的二级结构来改善它们的性能表达。在过去的几年中,出现了大量的基于深度学习的预测算法,深度学习提出了一种让计算机自动学习出数据特征的方法,并将特征学习融入到了建立模型的过程中,从而减少了人为设计特征造成的不完备性,但是为了能使数据的特征被无偏差学习,我们需要为深度学习的模型提供大量数据,以保证模型性能的提高。
Huang等人在2019年提出了一种通过结合图卷积神经网络(GNN)和自动编码器技术(AutoEncoder)的端到端预测算法,称为GCLMI [
在该算法中将lncRNA-miRNA相互作用的预测任务转换为异构二部图上的链接预测问题。构建一个相邻矩阵其形状是Nl× Nm的图M,其中Nl、Nm分别为lncRNA及miRNA节点数。该图中的Mij为第i类lncRNA和第j类miRNA之间是否具有相互作用,该数据由公共数据库获取。预测任务可以看作是利用深度学习来获取已有的边的规律从而来预测判断图中未知的边是否存在。GCLMI的整体流程如图2所示:
图2. GCLMI的整体流程图
Kang等人在2020年提出了一种基于混合模型和模糊决策来实现植物lncRNA-miRNA相互作用关系预测的方法,称为PmliPred [
该方法采取了one-hot编码来获取原始序列信息中分子之间的关系,编码后得到的二维矩阵可作为模型输入,CNN可以提取抽象特征,从不同层次的原始序列中通过卷积操作和压缩后平铺成一维向量输入到GRU单元,模糊决策解决了模型在做决策时的不确定性和不精确性。最后对PmliPred的参数和权重策略进行调整,以使性能最大化。PmliPred的整体流程如图3所示:
图3. PmliPred的整体流程图
Wang等人在2020年提出了一个基于混合序列特征及CNN的混合模型,称为LncMirNet [
首先基于lncRNA/miRNA的核苷酸序列信息,采用k-mer来表示一个基本但却不可或缺的特征,计算了lncRNA的四种特征,分别为1-mer、2-mer、3-mer、4-mer,由于miRNA序列过短其4-mer特征通常很稀疏因此只计算miRNA的1-mer、2-mer、3-mer等特征。最后,将四种k-mer特征合并为一个具有340维度的向量。采用CTD特征来表示RNA的结构信息,具有30维的CTD特征来自组成、过渡和分布,其中组成特性是指特定特性的氨基酸的数量除以氨基酸的总数,过渡特征描述特定特性的氨基酸的百分比频率,而分布特征测量的是一个特定属性的第一个、25%、50%、75%和100%的氨基酸所在的链长。采用Doc2vec构建RNA序列的分布式表示特征,使用局部上下文和句子全局信息来学习句子表示,任何的RNA序列都编码到一个固定大小的载体中。采用Role2vec结合作用对数据集对每个节点进行嵌入,因此Role2vec结合了图结构和节点属性信息,以学习每个节点的表示。最后依次将lncRNAs/miRNAs的k-mer、CTD、doc2ve和图嵌入特征融合到一个矩阵中,通过直方图模拟CNN学习模式将多个特征向量融合成一个直方图矩阵。最后,将直方图矩阵输入到CNN模型中,CNN应用卷积核从原始输入数据矩阵中自动提取潜在的特征,是一个强大的解决分类和监管问题的算法。LncMirNet的整体工作流程如图4所示:
图4. LncMirNet的整体流程图
Yu等人在2021年提出了一种基于rna2vec的预训练和深度特征挖掘机制的深度学习模型,称为preMLI [
首先基于Word2vec作了部分调整提出了一个新的词训练方法rna2vec,将miRNA和lncRNA数据集分别作为rna2vec的输入进行预训练,然后利用得到的权值矩阵将RNA的表达嵌入到训练数据集中。然后由于在自然语言处理的相关研究中,研究者经常使用递归神经网络(RNNs)来分析序列,与CNN相比RNN模型可以解决长期依赖问题。但在这个问题中,因为CNN可以从短序列片段中获得更多的潜在特征并具有较强的并行计算能力,所以该模型模型使用了包括CNN和双向门控循环单元(Bi-GRU)集成的混合模型。其中,利用CNN学习lncRNA和miRNA的局部特征,BiGRU捕获局部特征的长期依赖性。在网络的下游,该模型还增加了一个注意力机制来关注关键特征。
由于miRNA和lncRNA序列长度的差异,在序列嵌入后直接剪接特征向量并将其输入下游任务这样可能会导致miRNA的潜在特征获取不足。对此模型设计了一种深度特征挖掘机制,即首先通过上述网络从嵌入的输出特征向量中获得足够的潜在特征,最后将该向量连接起来作为预测层的输入。并且在两个网络上基于多个测试集进行了实验。实验表明,预训练机制和深度特征挖掘机制对模型的预测性能都有积极的影响,预训练可以提供更准确的单词向量表示,深度特征挖掘机制也提高了模型的预测性能。preMLI的整体工作流程如图5所示:
图5. preMLI的整体流程图
我们搜集到以上介绍的模型所提供的数据集及代码,分别对其进行复现得到对应的评价指标AUC的值。并且将以上介绍的四种方法所使用到的模型以及结果进行对比,四种模型都取得了较为不错的结果,可以说明这四种模型都能够较为有效的预测出潜在的lncRNA-miRNA作用关系。但在对比中可以看出模型LncMirNet及preMLI的结果比余下两者模型的结果要高出许多,均在0.9以上。综合上述对模型的详细介绍中我们可以发现LncMirNet及preMLI在数据处理阶段都采用了较为独特的编码方式,尽可能的利用编码方式获取到更加完备的lncRNA与miRNA的序列信息,由此可见信息的特征表示对于预测结果的影响很大。四种深度学习模型在lncRNA与miRNA作用关系预测表现上的比较如表1所示:
Method | Classifier | Database | Performance (AUC) |
---|---|---|---|
GCLMI | GNN、AutoEncoder | lncRNASNP、starBase | 0.8567 ± 0.0009 |
PmliPred | CNN、BiGRU | CANTATAdb2.0、miRBase、GreeNC | 0.8386 |
LncMirNet | Role2vec、CNN | lncRNASNP2、miRbase、GENCODE | 0.9381 |
preMLI | rna2vec、CNN、BiGRU | CANTATAdb、miRBase、GreeNC | 0.9773 |
表1. 标准实验系统结果数据
实验研究证明lncRNA与miRNA相互作用与癌症的发展、基因调控、细胞代谢等生物学过程高度相关,因此探究lncRNA与miRNA之间的相互作用关系是十分有必要的。在早期研究中,研究者主要通过实验室实验探索未知的lncRNA-miRNA相互作用关系,然而由于生物实验室发现lncRNA和miRNA之间的潜在相互作用的工作是劳动密集型、耗时且昂贵的,所以有越来越多的计算方法被用来辅助探索lncRNA和miRNA之间的潜在作用关系。但是由于受到生物学实验的限制,现有的lncRNA与miRNA关联数据十分有限,这使得对于深度学习模型来说样本数量小,从而导致计算结果性能低。另一方面由于我们现下只拥有正样本数据集对于负样本的选取采用的是随机方式,则是除去正样本之后随机选取需要数量的负样本,这导致负样本数据中可能掺杂着未被证实的正样本,从而使得模型结果存在一定误差。对于这些问题我们提出了相应的解决方式:1) 选择规模更大数据量更加丰富的数据集,提高样本量进而提高模型性能;2) 将负样本中被初步预测为正样本的数据进行筛除,近可能保留真正的负样本从而减少实验误差;3) 寻找更加适合自己数据结构的深度学习模型。
在这篇综述中,我们回顾了近几年来使用深度学习工具来进行lncRNA-miRNA相互作用关系预测的一些方法,许多计算方法已经成功地充分应用于辅助生物实验,并广泛应用于生物信息学。此外我们也介绍了目前预测研究存在的问题,并为未来从事此研究方向的学者提出了一些建议,希望这些能帮助改进现有的方法来取得更佳的结果。
王文雅. 基于深度学习的长链非编码RNA与微小RNA相互作用预测的研究进展Research Progress of Predicting Long Non-Coding RNA-MicroRNA Interaction Based on Deep Learning[J]. 数据挖掘, 2022, 12(02): 152-160. https://doi.org/10.12677/HJDM.2022.122016
https://doi.org/10.3389/fgene.2020.00090
https://doi.org/10.1016/j.molcel.2017.09.015
https://doi.org/10.1038/ncomms6383
https://doi.org/10.1016/j.bbcan.2015.07.001
https://doi.org/10.1158/0008-5472.CAN-16-0356
https://doi.org/10.1038/onc.2015.340
https://doi.org/10.1016/S1672-0229(08)60044-3
https://doi.org/10.1038/onc.2017.184
https://doi.org/10.1093/nar/gky955
https://doi.org/10.1093/nar/gkx1004
https://doi.org/10.1093/nar/gky1141
https://doi.org/10.3389/fgene.2019.00758
https://doi.org/10.1093/bioinformatics/btaa074
https://doi.org/10.3390/molecules25194372
https://doi.org/10.1093/nar/gkz087
https://doi.org/10.1016/j.jtbi.2015.08.025
https://doi.org/10.18653/v1/W16-1609
https://doi.org/10.1109/TKDE.2020.3006475
https://doi.org/10.1093/bib/bbab470