摘要:在生物信息学领域,对于蛋白质二级结构预测是一项具有挑战性的任务,对于确定蛋白质的结构和功能有着极其重要的意义。本文融合了生成对抗网络和卷积神经网络模型进行蛋白质二级结构预测,首先利用生成对抗网络提取蛋白质特征,其次将生成对抗网络提取的特征结合PSSM矩阵作为卷积神经网络的输入,得到预测结果。在测试集CASP9,CASP10,CASP11,CASP12,CB513和PDB25获得了87.06%,87.24%,87.31%,87.39%,88.13%和88.93%,比单独使用卷积神经网络提高了3.88%,4.6%,7.97%,5.85%,5.78%,4.25%。实验结果表明,生成对抗网络特征提取能力是非常显著的。
Abstract:In the field of bioinformatics, the prediction of protein secondary structure is a challenging task, and it is extremely important for determining the structure and function of proteins. In this paper, the generation of adversarial networks and convolutional neural network models are combined for protein secondary structure prediction. First, the anti-network is generated to extract protein fea-tures. Secondly, the extracted features of the anti-network are combined with the PSSM matrix as the input of the convolutional neural network to obtain the prediction results. In the test set CASP9, CASP10, CASP11, CASP12, CB513 and PDB25 obtained 87.06%, 87.24%, 87.31%, 87.39%, 88.13% and 88.93%, which is 3.88%, 4.6%, 7.97%, 5.85%, 5.78%, 4.25% higher than the convolutional neural network alone. The experimental results show that the feature extraction ability of generat-ing adversarial networks is very significant.
1. 引言
蛋白质是重要的生物大分子之一,几乎所有的生命活动都离不开蛋白质。伴随着人类基因组计划的完成,科学家从未停止对蛋白质结构的研究。对于蛋白质结构的分类信息研究应通过蛋白质研究领域来解决,并且在生物信息学领域也是十分重要的 [1] [2]。蛋白质二级结构预测是三级结构预测的关键一步,是了解和预测三级结构的前提,蛋白质二级结构预测准确率的提高,不仅可以使我们了解到蛋白质序列和蛋白质结构之间复杂的关系,还有助于对蛋白质功能进行分析和制造药物 [3],所以蛋白质二级结构预测是一项具有挑战性的任务并且具有重要意义。利用生物学的方法来测定蛋白质的结构是昂贵且费时的,因此,我们可以借助于计算机的方式进行蛋白质二级结构预测。
在生物信息学领域,已经有很多的计算方法用于蛋白质二级结构预测的问题,比如常见的机器学习算法包括有支持向量机 [4] [5],最近邻算法 [6] 和贝叶斯算法 [7] 等。但是机器学习的特征提取依赖于经验,使得对数据的特征提取有一定难度。伴随着科技的发展计算能力的加强,深度学习模型逐渐受到人们的重视,它能够从原始数据中学习特征,不依赖专家经验。蛋白质二级结构预测被应用到卷积神经网络(CNN) [8] 和循环神经网络(RNN) [9] 中来提高预测的精度。SPIDER3 [10] 方法利用长短时记忆双向递归神经网络,能够捕捉到更长的氨基酸序列信息,使准确率达到了80%以上。SPOT-1D [11] 方法是目前较新的蛋白质二级结构预测方法,它是SPIDER3的改进,在SPIDER3方法的基础上结合了残差卷积网络,获得了较好的效果。Ma等 [12] 提出了一种基于数据分割和半随机子空间方法,在PDB25和CB513数据集上测试3态准确率为86.38%和84.53%。MUFOLD [13] 方法采用名为Deep3I的网络,由两个嵌套的可进行卷积操作的初始模块、卷积以及完全连通的致密层组成,有效地处理了氨基酸残基之间的局部和全局相互作用。
近年来,生成对抗网络 [14] [15] 作为一种较新的深度学习模型,在特征提取,图像去噪方面有着显著的效果。基于上述原因,本文融合了GAN和CNN神经网络,提出了基于生成对抗网络和卷积神经网络的蛋白质二级结构预测。生成对抗网络可以通过生成器和判别器之间相互博弈来提取氨基酸残基之间的特征,将提取的特征与原始蛋白质特征融合之后送入到卷积神经网络中进行3类蛋白质二级结构预测。
2. 蛋白质二级结构预测模型
蛋白质二级结构是根据蛋白质序列预测氨基酸残基对应的结构类型,基于PSI-BLAST的位置特异性评分矩阵(PSSM) [16] 来表示蛋白质序列,且含有丰富的生物进化信息。PSI-BLAS参数设置为阈值为0.001和3次迭代得到20*M的PSSM矩阵,其中M是氨基酸序列的长度,20代表氨基酸类型的数目。蛋白质结构定义DSSP [17] 中包含有八种结构类型,分别为H(α螺旋)、B(β转角)、E(折叠)、G(3-螺旋)、I(5-螺旋)、T(转角)、S(卷曲)和 L(环)。本文实验将采用G、H、I 替换为H,B、E替换为E,其他都采用C的划分方式。
本文采用生成对抗网络和卷积神经网络预测蛋白质二级结构,首先对数据预处理,按照滑动窗口为13和19的方式对PSSM矩阵进行分割,得到网络的输入数据。其预测模型如见下方图1所示。
Figure 1. Protein secondary structure prediction model structure (PSSM stands for protein sequence, GAN stands for generative countermeasure network, CNN stands for convolution neural network)
图1. 蛋白质二级结构预测模型结构(PSSM代表蛋白质序列,GAN代表生成对抗网络,CNN代表卷积神经网络)
2.1. 数据集
本文采用ASTRAL [18] 和CullPDB [19] 数据集作为该模型的训练集,去除ASTRAL和CullPDB数据集中的重复蛋白质一共有15696条蛋白质。测试集采用CASP [20] [21] [22] 类数据集,包括CASP9,CASP10,CASP11和CASP12。除此之外,CB513 [23] 和PDB25 [24] 数据集也作为该模型的测试集,测试集的蛋白质序列数目如表1所示。
Table 1. Number of protein sequences in test set
表1. 测试集蛋白质序列数目
2.2. 生成对抗网络
2014年Ian Goodfellow提出生成对抗网络(Generative Adversarial Networks) [25],文献 [14] 和文献 [15] 利用生成对抗网络进行图像去噪和特征提取,证明了生成对抗网络具有良好的特性。生成对抗网络包括两个部分:生成器和判别器。生成器可以学习真实数据的分布特征,为了生成和真实蛋白质数据相似的数据,然而判别器是判断数据是生成器生成的还是真实的数据,实际上是一个二分类问题。从博弈论的角度来看,生成器为了提高自己的生成能力,判别器为了提高自己的判别能力,都是需要不断去优化的,但是两者最终会达到纳什均衡(Nash equilibrium)。生成器和判别器可以分别用G和D来表示,生成对抗网络模型如图2所示。
Figure 2. Generative confrontation network model
图2. 生成对抗网络模型
GAN的学习过程就是D和G对抗的过程,由D对输入的蛋白质矩阵PSSM进行分类,D可以判别生成数据和真实数据,判别生成数据为假,则
,对真实数据判别为真,则
。当出现这种情况时,G就需要不断的调整优化自身参数,使得生成的数据更加接近真实的数据,使得D无法判断数据是真实的还是由G生成的,即
。G与D的对抗过程被称为极大极小博弈,它的损失函数定义如下。
(1)
式中,x表示真实的蛋白质数据,z代表输入到G的随机数据,
表示G网络生成的假的数据,
表示D网络判断真实数据是否真实的概率,对于D来说,这个值越接近1越好。而
是D网络判断G生成蛋白质数据是否真实的概率,生成器希望自己生成的数据更加接近真实数据,所以G希望
D(G(z))尽可能的大,这时
会变小,因此我们看到式(1)的最前面的记号是
。判别器的能力越
强,
应该越大,
越小,这时
会变大,所以式(1)对于D来说是求最大值。
在本文生成对抗模型中,将卷积网络引入到G和D网络中,目的是为了提高生成对抗网络的特征提取能力,用以提高蛋白质二级结构预测精度。G网络中使用反卷积进行上采样,激活函数采用ReLU函数,D网络采用步长为1的卷积层,激活函数采用ReLU函数。将生成对抗网络提取到的特征与PSSM矩阵结合并利用深度卷积神经网络进行蛋白质二级结构预测。
2.3. 卷积神经网络
近年来,卷积神经网络作为流行的深度学习算法,被应用到图像处理 [26] 和计算机视觉 [27] 等领域。基于卷积神经网络 [8] [13] 的方法已经应用到蛋白质二级结构预测当中,已经取得显著的效果,它与传统的神经网络相比,它具有权值共享和局部感知的特点,可以减少网络参数加快计算速度,卷积神经网络模型结构图如图3所示。
Figure 3. Convolutional neural network model
图3. 卷积神经网络模型
卷积层通过卷积核对输入的蛋白质数据进行特征提取,卷积的过程就是按照卷积核的大小在输入的蛋白质矩阵上做运算,产生和卷积核数目相同的特征图。特征图由输入矩阵和权重相乘再加上偏置得到,令:
(2)
式中,f为激活函数ReLU,
表示输入数据与上一层的卷积核得到的特征图,
是第i层的一个卷积核,k表示卷积核的数量,i表示卷积层数,b代表偏置参数。
池化层并不执行任何的学习,它通常也被称为一种非线性的下采样形式。池化层处理的结果是使特征维度下降、参数减少来减少计算量,提高计算速度,并且还能有效的减少过拟合,同时还有平移不变的特性,增加了鲁棒性。为了调整权重以进行训练,使用了使用梯度下降算法的反向传播算法。
全连接层和softmax层作为卷积神经网络的输出层,全连接层的每一个神经元都要和前一层的神经元相连,输出三类蛋白质二级结构。Softmax函数层使用激活功能来解决3类蛋白质结构的分类问题,其函数定义为:
(3)
式中,
是给定类别样本的条件概率,
是蛋白质结构类别的先验概率。Softmax函数被视为logistic Sigmoid函数的多类推广 [28]。
3. 实验结果
本文的实验环境参数如下:处理器Intel(R) Xeon(R) Glod 5118 CPU 2.30GHz,图形加速卡为RTX2080Ti,操作系统为Linux,采用Keras2.3版本构建模型。
为了评估本文模型的准确率,采用六种公开的测试集:CASP9、CASP10、CASP11、CASP12、CB513和PDB25进行测试,为了验证生成对抗网络的有效性,针对3类蛋白质二级结构预测问题,本文设置了两个不同的实验。实验一是采用卷积神经网络模型用于蛋白质二级结构预测,实验二是首先采用生成对抗网络对蛋白质数据进行特征提取再结合卷积神经网络进行蛋白质二级结构预测。本文采用滑动窗口分别为13和19,卷积层的卷积核大小和尺寸分别为11 × 11 × 270,11 × 11 × 160 (13窗口下)和19 × 19 × 290,16 × 16 × 170 (19窗口下)。
为了验证迭代次数对生成对抗网络提取特征的影响,迭代次数的单位为万次。由于滑动窗口的不同导致包含的蛋白质特征信息也不同,因此本文分别对13和19窗口下的蛋白质数据进行验证,实验结果如表2和表3所示。
Table 2. The impact of the number of iterations under 13 windows on accuracy
表2. 13窗口下迭代次数对准确率的影响
Table 3. The impact of the number of iterations under 19 windows on accuracy
表3. 19窗口下迭代次数对准确率的影响
从表2和表3可以看出,在滑动窗口为19的时候准确率较高,因为在19窗口下能够包含更多的蛋白质特征信息,并且在伴随着生成对抗网络中生成器与判别器之间迭代次数的增加,准确率呈现下降趋势,在迭代次数为10万的时候取得较好的结果。
Table 4. Convolutional neural network prediction accuracy
表4. 卷积神经网络预测准确率
通过表2,表3和表4进行对比可以发现,生成对抗网络提取到的特征与PSSM矩阵融合,进行3类蛋白质二级结构预测,与单独的使用卷积神经网络相比,准确率有了较大的提高。通过本文实验可以看出,生成对抗网络的特征提取是非常有效的,在CAS P9,CASP10,CASP11,CASP12,CB513,PDB25数据集上分别提高了3.88%,4.6%,7.97%,5.85%,5.78%,4.25%。证明了生成对抗网络特征提取能力的优越性。
4. 结论
蛋白质二级结构预测是生物信息学领域一项具有重大意义的工作,对全面了解蛋白质的功能和结构是必要的。本文融合了生成对抗网络和卷积神经网络模型进行蛋白质二级结构预测,由生成对抗网络提取蛋白质序列特征,再结合PSSM矩阵作为卷积神经网络的输入,进行蛋白质二级结构分类预测。通过与只用卷积神经网络预测结果对比,生成对抗网络的特征提取能力是较强的,能够取得非常显著的效果,有较好的可扩展性。
基金项目
国家自然科学基金(No. 61375013),山东省自然科学基金(No. ZR2013FM020)。