长链非编码RNA (Long non-coding RNA, lncRNA)指的是序列长度大于200 nt,且不能直接翻译成蛋白质的一类RNA,伴随着生物信息学的不断发展进步,研究人员已经在很多实验中证实长链非编码RNA在人体发育过程中扮演着至关重要的作用,它通常会与蛋白质发生相互作用来实现其生物学功能,因此预测长链非编码RNA与蛋白质的潜在关联有着十分重要的意义。在本文中,我们提出了一种利用矩阵补全算法来预测长链非编码RNA与蛋白质相互作用的模型,称为LPIMC。它能够利用由长链非编码RNA相似性网络、蛋白质相似性网络、长链非编码RNA与蛋白质相互作用矩阵结合而来的异构网络,通过最小化核范数实现矩阵补全来生成新的相互作用邻接矩阵。5折交叉验证下证明,该模型能够有效预测长链非编码RNA-蛋白质关联。 Long non-coding RNA (lncRNA) refers to a class of RNA whose sequence length is more than 200 nt and cannot be directly translated into protein. With the continuous development and progress of bioinformatics, researchers have confirmed in many experiments that long non-coding RNA plays a crucial role in human development. It usually interacts with proteins to fulfill its biological functions, so it is very important to predict the potential association between long non-coding RNAs and proteins. In this paper, we propose a model called LPIMC that uses matrix completion algorithms to predict the interaction between long non-coding RNAs and proteins. It can generate a new adjacency matrix by using heterogeneous networks combining long non-coding RNA similarity network, protein similarity network and long non-coding RNA and protein interaction matrix, and achieve matrix completion by minimizing the nuclear norm. The model can effectively predict the long non-coding RNA-protein association under 5-fold cross validation.
长链非编码RNA (Long non-coding RNA, lncRNA)指的是序列长度大于200 nt,且不能直接翻译成蛋白质的一类RNA,伴随着生物信息学的不断发展进步,研究人员已经在很多实验中证实长链非编码RNA在人体发育过程中扮演着至关重要的作用,它通常会与蛋白质发生相互作用来实现其生物学功能,因此预测长链非编码RNA与蛋白质的潜在关联有着十分重要的意义。在本文中,我们提出了一种利用矩阵补全算法来预测长链非编码RNA与蛋白质相互作用的模型,称为LPIMC。它能够利用由长链非编码RNA相似性网络、蛋白质相似性网络、长链非编码RNA与蛋白质相互作用矩阵结合而来的异构网络,通过最小化核范数实现矩阵补全来生成新的相互作用邻接矩阵。5折交叉验证下证明,该模型能够有效预测长链非编码RNA-蛋白质关联。
长链非编码RNA,蛋白质,相互作用,矩阵补全,异构网络
Jingxuan Zhao
School of Computer Science and Software Engineering, University of Science and Technology Liaoning, Anshan Liaoning
Received: May 13th, 2022; accepted: Jun. 13th, 2022; published: Jun. 22nd, 2022
Long non-coding RNA (lncRNA) refers to a class of RNA whose sequence length is more than 200 nt and cannot be directly translated into protein. With the continuous development and progress of bioinformatics, researchers have confirmed in many experiments that long non-coding RNA plays a crucial role in human development. It usually interacts with proteins to fulfill its biological functions, so it is very important to predict the potential association between long non-coding RNAs and proteins. In this paper, we propose a model called LPIMC that uses matrix completion algorithms to predict the interaction between long non-coding RNAs and proteins. It can generate a new adjacency matrix by using heterogeneous networks combining long non-coding RNA similarity network, protein similarity network and long non-coding RNA and protein interaction matrix, and achieve matrix completion by minimizing the nuclear norm. The model can effectively predict the long non-coding RNA-protein association under 5-fold cross validation.
Keywords:Long-Chain Noncoding RNA, Protein, Interaction, Matrix Completion, Heterogeneous Network
Copyright © 2022 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
非编码RNA (Non-coding RNA, ncRNA)是指不参与编码产生蛋白质的RNA,这些RNA曾被认为是无用的,长链非编码RNA (Long non-coding RNA, lncRNA)是长度大于200个核苷酸的非编码RNA,越来越多的研究表明尽管不能直接编码为蛋白质,长链非编码RNA仍可以参与一系列生物学过程,例如遗传表现调节、肿瘤生长、免疫反应等 [
近些年来,利用机器学习方法来预测长链非编码RNA与蛋白质相互作用(lncRNA-protein interaction, LPI)已经取得了丰硕的成果,Pan等人 [
深度学习同样在长链非编码RNA与蛋白质作用关系预测领域有了很广泛的应用。在2020年,Zhang等人 [
此外,许多用于长链非编码RNA-蛋白质关联预测的半监督学习方法都用到了矩阵分析相关知识。Ge等人 [
在本文中,我们提出了一种利用矩阵补全算法来预测长链非编码RNA-蛋白质相互作用关系的模型,称为LPIMC。我们的模型首先基于长链非编码RNA与蛋白质的相似矩阵及相关性矩阵构建了一个异构网络,然后使用将矩阵补全问题转化为最小化核范数方法来补全目标矩阵,最终得到两者的预测打分矩阵,以从中获取潜在的长链非编码RNA-蛋白质关联。
我们的数据集包含从NPInter v2.0数据库 [
我们首先将3046个长链非编码RNA与136个蛋白质进行了重新编号,并由此将此前的8112条关联信息转化为了一个n × m维的邻接矩阵,表示为 Y = R n × m ,n = 3046表示长链非编码RNA的数量,m = 136表示蛋白质的数量。对应的,若 Y ( i , j ) = 1 ,则代表第i个长链非编码RNA与第j个蛋白质之间存在关联;若 Y ( i , j ) = 0 ,则代表第i个长链非编码RNA与第j个蛋白质之间无已知关联信息。
这里采用高斯核(GIP)相似性来 [
G S l ( l i , l j ) = exp ( − γ l ‖ A P ( l i ) − A P ( l j ) ‖ 2 ) ,
γ l = γ ′ l / [ 1 n ∑ i = 1 n ‖ A P ( l i ) ‖ 2 ]
其中 γ l 是针对于长链非编码RNA的GIP相似性正则化核带宽参数, γ ′ l 是源带宽参数。同理, G S p 的计算方法与之类似。
算法思想为将长链非编码RNA-蛋白质关联预测问题转换为矩阵补全问题,然后使用最小化核范数来求解得到预测矩阵。首先,基于上面构建的长链非编码RNA与蛋白质相互作用邻接矩阵Y和两者各自的GIP核相似性矩阵 G S l 与 G S p ,我们搭建了一个异构的长链非编码RNA-蛋白质网络T视为目标矩阵,表示如下:
T = [ S l Y Y T S p ]
不难得出目标矩阵T为 ( n + m ) × ( n + m ) 维,构建目标矩阵T的目的是未来使用求解得来的长链非编码RNA-蛋白质预测得分来填充缺失值。由于目标矩阵为低秩的,在此我们将矩阵补全问题转换为最小化目标矩阵秩的问题 [
min X ‖ X ‖ ∗ ,
s .t . P Ω ( X ) = P Ω ( T )
‖ X ‖ ∗ 代表X的核范数,Ω是目标矩阵节点的坐标集,与已知的长链非编码RNA-蛋白质对相对应。 P Ω 是Ω上的正交投影算子。
( P Ω ( X ) ) i j = { X i j , ( i , j ) ∈ Ω 0 , else
除此之外,为了进一步提升ADMM算法,我们在方程中加入了正则化项和矩阵值约束,以确保得到的预测打分落在(0, 1)的范围内,因为(0, 1)范围外的打分没有任何意义。由此得到的关键方程如下:
min X ‖ X ‖ ∗ + α 2 ‖ P Ω ( X ) − P Ω ( T ) ‖ F 2
s .t . 0 < X i j < 1 ( 0 ≤ i , j ≤ n + m )
其中 α 是表征误差项的参数, 0 < X i j < 1 代表X中的所有元素都在(0, 1)的范围内。我们在前面的函数中还引入了一个辅助矩阵W来进一步提高模型收敛性能。最终目标函数如下:
min X ‖ X ‖ ∗ + α 2 ‖ P Ω ( W ) − P Ω ( T ) ‖ F 2 ,
s .t . X = W , 0 < W i j < 1 ( 0 ≤ i , j ≤ n + m )
在上述公式的基础下,增广拉格朗日函数为:
L ( W , X , Y , α , β ) = ‖ X ‖ ∗ + α 2 ‖ P Ω ( W ) − P Ω ( T ) ‖ F 2 + T r ( Y T ( X − W ) ) + β 2 ‖ X − W ‖ F 2
其中Y是拉格朗日乘数, β > 0 代表惩罚参数。我们将W, X和Y初始化为 P Ω ( T ) ,然后进行迭代,在第k次迭代时,根据ADMM可以计算得来 W k + 1 、 X k + 1 和 Y k + 1 。当迭代终止时,最终的预测矩阵 W ∗ 可以根据之前T的形式进行划分,其中 A ∗ 代表长链非编码RNA与蛋白质的预测关联矩阵, S l ∗ 和 S p ∗ 为长链非编码RNA与蛋白质各自的相似性矩阵,此时 A ∗ 中之前存在的空白值被填满,填充值即为长链非编码RNA与蛋白质潜在关联预测打分。预测矩阵及迭代终止条件表示如下:
W ∗ = [ S l ∗ A ∗ A ∗ T S p ∗ ]
d 1 k + 1 = ‖ X k + 1 − X k ‖ F ‖ X k ‖ F ≤ t o l 1 , d 2 k + 1 = | d 1 k + 1 − d 1 k | max { | d 1 k | , 1 } ≤ t o l 2
其中默认参数设置为: α = 1 ; β = 10 ; γ = 1 ; t o l 1 = 0.002 ; t o l 2 = 0.00001 。模型流程图如图1所示。
图1. LPIMC流程图
模型评估方面,我们采用AUC (ROC曲线下面积)作为评估指标。ROC即受试者工作特性曲线,其横坐标为假阳性率(False Positive Rates, FPR),纵坐标为真阳性率(False Positive Rates, TPR),计算公式为: FPR = FP / ( FP + TN ) , TPR = TP / ( TP + FN ) 。对应的值由TP,FP,TN,FN计算而来。其中TP为真实为正类且预测同为正类的样本,FP为真实为负类而预测为正类的样本。同理,TN为真实为负类且预测同为负类的样本,FN为真实为正类却被预测为负类的样本。
我们在整理筛选后的数据集上进行了10次5折交叉验证,在5折交叉验证中,8112个确认的长链非编码RNA-蛋白质关联被随机分为5组,每个集合被依次当作测试集,其他四个集合被合并为训练集,并使用在训练集上训练出的模型来预测测试集中的关联得分,最后通过计算得到模型的平均AUC值为0.98 ± 0.01。为了证明模型的泛化能力,我们还额外从lncRNome数据库上采集了一个新数据集,经过筛选得到了2729对相互作用数据,涉及到1184个长链非编码RNA和9个蛋白质。经过LPIMC模型训练测试得到5折交叉验证平均AUC为0.985 ± 0.003,模型表现性能较在NPInter v2.0上表现更为出色,据分析可能是因为在该数据库中已知长链非编码RNA与蛋白质关联占比更高所致。模型在两个数据集上的ROC曲线图如图2所示。
图2. 两个数据集上的ROC曲线
本文中,我们提出了一种利用矩阵补全策略来进行长链非编码RNA与蛋白质相互作用关系预测的模型(LPIMC)来预测两者的潜在关联。实验数据表明,尽管所能利用的关联数据十分有限,模型仍取得了优良结果,且不过分依赖于长链非编码RNA与蛋白质本身的特殊特性,这些都表明了LPIMC模型可以扩展到类似的分类任务。长链非编码RNA与蛋白质的关联预测数据集属于较大规模数量级的数据集,而由于LPIMC使用了较少的计算资源,故它的时间效率也表现出色。同时,我们也对LPIMC模型的改良有了一些设想,例如将矩阵补全算法和当前大热的深度学习及图学习相结合,亦或在数据集层面下功夫,获取更高质量且更均衡的数据集。这些都能帮助提升模型预测性能。
赵靖轩. 矩阵补全算法在预测长链非编码RNA与蛋白质关联中的应用Predicting Association between Long Chain Noncoding RNA and Protein Based on Matrix Completion Algorithm[J]. 计算生物学, 2022, 12(02): 16-22. https://doi.org/10.12677/HJCB.2022.122003
https://doi.org/10.1016/j.tcb.2011.04.001
https://doi.org/10.1186/s12864-016-2931-8
https://doi.org/10.1038/s41598-017-03986-1
https://doi.org/10.1080/15476286.2018.1457935
https://doi.org/10.3390/ijms20040978
https://doi.org/10.1186/s12859-020-3406-0
https://doi.org/10.1016/j.ab.2020.113767
https://doi.org/10.1093/bib/bbab051
https://doi.org/10.1186/s12859-021-04171-y
https://doi.org/10.1109/BIBM52615.2021.9669316
https://doi.org/10.1016/j.gpb.2016.01.004
https://doi.org/10.1016/j.neucom.2017.07.065
https://doi.org/10.3389/fgene.2018.00239
https://doi.org/10.1109/TCBB.2018.2861009
https://doi.org/10.1093/nar/gkt1057
https://doi.org/10.1093/nar/gkr1175
https://doi.org/10.1093/nar/gkh131
https://doi.org/10.1093/database/bat034
https://doi.org/10.18632/oncotarget.11251
https://doi.org/10.26599/BDMA.2018.9020008
https://doi.org/10.1007/s10107-012-0540-0
https://doi.org/10.1561/2200000016