在生物信息学领域,对于蛋白质二级结构预测是一项具有挑战性的任务,对于确定蛋白质的结构和功能有着极其重要的意义。本文融合了生成对抗网络和卷积神经网络模型进行蛋白质二级结构预测,首先利用生成对抗网络提取蛋白质特征,其次将生成对抗网络提取的特征结合PSSM矩阵作为卷积神经网络的输入,得到预测结果。在测试集CASP9,CASP10,CASP11,CASP12,CB513和PDB25获得了87.06%,87.24%,87.31%,87.39%,88.13%和88.93%,比单独使用卷积神经网络提高了3.88%,4.6%,7.97%,5.85%,5.78%,4.25%。实验结果表明,生成对抗网络特征提取能力是非常显著的。 In the field of bioinformatics, the prediction of protein secondary structure is a challenging task, and it is extremely important for determining the structure and function of proteins. In this paper, the generation of adversarial networks and convolutional neural network models are combined for protein secondary structure prediction. First, the anti-network is generated to extract protein fea-tures. Secondly, the extracted features of the anti-network are combined with the PSSM matrix as the input of the convolutional neural network to obtain the prediction results. In the test set CASP9, CASP10, CASP11, CASP12, CB513 and PDB25 obtained 87.06%, 87.24%, 87.31%, 87.39%, 88.13% and 88.93%, which is 3.88%, 4.6%, 7.97%, 5.85%, 5.78%, 4.25% higher than the convolutional neural network alone. The experimental results show that the feature extraction ability of generat-ing adversarial networks is very significant.
在生物信息学领域,对于蛋白质二级结构预测是一项具有挑战性的任务,对于确定蛋白质的结构和功能有着极其重要的意义。本文融合了生成对抗网络和卷积神经网络模型进行蛋白质二级结构预测,首先利用生成对抗网络提取蛋白质特征,其次将生成对抗网络提取的特征结合PSSM矩阵作为卷积神经网络的输入,得到预测结果。在测试集CASP9,CASP10,CASP11,CASP12,CB513和PDB25获得了87.06%,87.24%,87.31%,87.39%,88.13%和88.93%,比单独使用卷积神经网络提高了3.88%,4.6%,7.97%,5.85%,5.78%,4.25%。实验结果表明,生成对抗网络特征提取能力是非常显著的。
生物信息学,生成对抗网络,卷积神经网络,蛋白质二级结构预测
Yawu Zhao, Hualan Zhang, Yihui Liu
School of Computer Science and Technology, Qilu University of Technology (Shandong Academy of Sciences), Jinan Shandong
Received: Nov. 9th, 2020; accepted: Nov. 25th, 2020; published: Dec. 2nd, 2020
In the field of bioinformatics, the prediction of protein secondary structure is a challenging task, and it is extremely important for determining the structure and function of proteins. In this paper, the generation of adversarial networks and convolutional neural network models are combined for protein secondary structure prediction. First, the anti-network is generated to extract protein features. Secondly, the extracted features of the anti-network are combined with the PSSM matrix as the input of the convolutional neural network to obtain the prediction results. In the test set CASP9, CASP10, CASP11, CASP12, CB513 and PDB25 obtained 87.06%, 87.24%, 87.31%, 87.39%, 88.13% and 88.93%, which is 3.88%, 4.6%, 7.97%, 5.85%, 5.78%, 4.25% higher than the convolutional neural network alone. The experimental results show that the feature extraction ability of generating adversarial networks is very significant.
Keywords:Bioinformatics, Generative Adversarial Network, Convolutional Neural Network, Protein Secondary Structure Prediction
Copyright © 2020 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
蛋白质是重要的生物大分子之一,几乎所有的生命活动都离不开蛋白质。伴随着人类基因组计划的完成,科学家从未停止对蛋白质结构的研究。对于蛋白质结构的分类信息研究应通过蛋白质研究领域来解决,并且在生物信息学领域也是十分重要的 [
在生物信息学领域,已经有很多的计算方法用于蛋白质二级结构预测的问题,比如常见的机器学习算法包括有支持向量机 [
近年来,生成对抗网络 [
蛋白质二级结构是根据蛋白质序列预测氨基酸残基对应的结构类型,基于PSI-BLAST的位置特异性评分矩阵(PSSM) [
本文采用生成对抗网络和卷积神经网络预测蛋白质二级结构,首先对数据预处理,按照滑动窗口为13和19的方式对PSSM矩阵进行分割,得到网络的输入数据。其预测模型如见下方图1所示。
图1. 蛋白质二级结构预测模型结构(PSSM代表蛋白质序列,GAN代表生成对抗网络,CNN代表卷积神经网络)
本文采用ASTRAL [
数据集 | 蛋白质序列数目 |
---|---|
CASP9 | 122 |
CASP10 | 99 |
CASP11 | 81 |
CASP12 | 19 |
CB513 | 513 |
PDB25 | 1672 |
表1. 测试集蛋白质序列数目
2014年Ian Goodfellow提出生成对抗网络(Generative Adversarial Networks) [
图2. 生成对抗网络模型
GAN的学习过程就是D和G对抗的过程,由D对输入的蛋白质矩阵PSSM进行分类,D可以判别生成数据和真实数据,判别生成数据为假,则 D ( G ( z ) ) = 0 ,对真实数据判别为真,则 D ( x ) = 1 。当出现这种情况时,G就需要不断的调整优化自身参数,使得生成的数据更加接近真实的数据,使得D无法判断数据是真实的还是由G生成的,即 D ( G ( z ) ) = 1 。G与D的对抗过程被称为极大极小博弈,它的损失函数定义如下。
min G max D V ( D , G ) = E x ~ p d a t a ( x ) [ log D ( x ) ] + E z ~ p z ( x ) [ log ( 1 − D ( G ( z ) ) ) ] (1)
式中,x表示真实的蛋白质数据,z代表输入到G的随机数据, G ( z ) 表示G网络生成的假的数据, D ( x ) 表示D网络判断真实数据是否真实的概率,对于D来说,这个值越接近1越好。而 D ( G ( z ) ) 是D网络判断G生成蛋白质数据是否真实的概率,生成器希望自己生成的数据更加接近真实数据,所以G希望
D(G(z))尽可能的大,这时 V ( D , G ) 会变小,因此我们看到式(1)的最前面的记号是 min G 。判别器的能力越
强, D ( x ) 应该越大, D ( G ( x ) ) 越小,这时 V ( D , G ) 会变大,所以式(1)对于D来说是求最大值。
在本文生成对抗模型中,将卷积网络引入到G和D网络中,目的是为了提高生成对抗网络的特征提取能力,用以提高蛋白质二级结构预测精度。G网络中使用反卷积进行上采样,激活函数采用ReLU函数,D网络采用步长为1的卷积层,激活函数采用ReLU函数。将生成对抗网络提取到的特征与PSSM矩阵结合并利用深度卷积神经网络进行蛋白质二级结构预测。
近年来,卷积神经网络作为流行的深度学习算法,被应用到图像处理 [
图3. 卷积神经网络模型
卷积层通过卷积核对输入的蛋白质数据进行特征提取,卷积的过程就是按照卷积核的大小在输入的蛋白质矩阵上做运算,产生和卷积核数目相同的特征图。特征图由输入矩阵和权重相乘再加上偏置得到,令:
F k i = f ( ∑ h P h i − 1 ∗ W k i + b ) (2)
式中,f为激活函数ReLU, P h i − 1 表示输入数据与上一层的卷积核得到的特征图, W k i 是第i层的一个卷积核,k表示卷积核的数量,i表示卷积层数,b代表偏置参数。
池化层并不执行任何的学习,它通常也被称为一种非线性的下采样形式。池化层处理的结果是使特征维度下降、参数减少来减少计算量,提高计算速度,并且还能有效的减少过拟合,同时还有平移不变的特性,增加了鲁棒性。为了调整权重以进行训练,使用了使用梯度下降算法的反向传播算法。
全连接层和softmax层作为卷积神经网络的输出层,全连接层的每一个神经元都要和前一层的神经元相连,输出三类蛋白质二级结构。Softmax函数层使用激活功能来解决3类蛋白质结构的分类问题,其函数定义为:
P ( t r / x ) = P ( x / t r ) P ( t r ) ∑ j = 1 D P ( x / t j ) P ( t j ) = e o r ∑ j = 1 D e o j (3)
式中, P ( x / t r ) 是给定类别样本的条件概率, P ( t r ) 是蛋白质结构类别的先验概率。Softmax函数被视为logistic Sigmoid函数的多类推广 [
本文的实验环境参数如下:处理器Intel(R) Xeon(R) Glod 5118 CPU 2.30GHz,图形加速卡为RTX2080Ti,操作系统为Linux,采用Keras2.3版本构建模型。
为了评估本文模型的准确率,采用六种公开的测试集:CASP9、CASP10、CASP11、CASP12、CB513和PDB25进行测试,为了验证生成对抗网络的有效性,针对3类蛋白质二级结构预测问题,本文设置了两个不同的实验。实验一是采用卷积神经网络模型用于蛋白质二级结构预测,实验二是首先采用生成对抗网络对蛋白质数据进行特征提取再结合卷积神经网络进行蛋白质二级结构预测。本文采用滑动窗口分别为13和19,卷积层的卷积核大小和尺寸分别为11 × 11 × 270,11 × 11 × 160 (13窗口下)和19 × 19 × 290,16 × 16 × 170 (19窗口下)。
为了验证迭代次数对生成对抗网络提取特征的影响,迭代次数的单位为万次。由于滑动窗口的不同导致包含的蛋白质特征信息也不同,因此本文分别对13和19窗口下的蛋白质数据进行验证,实验结果如表2和表3所示。
Iterations | CASP9 | CASP10 | CASP11 | CASP12 | CB513 | PDB25 |
---|---|---|---|---|---|---|
10 | 84.4 | 84.71 | 84.25 | 85.04 | 86.23 | 86.66 |
20 | 84.52 | 85.26 | 84.09 | 84.33 | 86.24 | 86.82 |
30 | 82.76 | 85.27 | 84.58 | 85.01 | 86.21 | 86.72 |
40 | 84.4 | 85.46 | 84.13 | 84.33 | 86.19 | 86.84 |
50 | 84.38 | 84.60 | 84.09 | 83.81 | 86.30 | 85.52 |
60 | 84.29 | 84.90 | 84.36 | 84.05 | 86.15 | 86.80 |
表2. 13窗口下迭代次数对准确率的影响
Iterations | CASP9 | CASP10 | CASP11 | CASP12 | CB513 | PDB25 |
---|---|---|---|---|---|---|
10 | 87.06 | 87.24 | 87.31 | 87.39 | 88.13 | 88.93 |
20 | 86.13 | 87.05 | 86.94 | 86.49 | 87.75 | 88.04 |
30 | 86.53 | 86.59 | 87.24 | 86.42 | 87.93 | 88.61 |
40 | 86.63 | 87.05 | 87.14 | 86.70 | 88.07 | 88.62 |
50 | 86.46 | 86.75 | 86.59 | 86.52 | 87.94 | 88.41 |
60 | 86.45 | 87.12 | 87.27 | 87.03 | 87.71 | 88.49 |
表3. 19窗口下迭代次数对准确率的影响
从表2和表3可以看出,在滑动窗口为19的时候准确率较高,因为在19窗口下能够包含更多的蛋白质特征信息,并且在伴随着生成对抗网络中生成器与判别器之间迭代次数的增加,准确率呈现下降趋势,在迭代次数为10万的时候取得较好的结果。
滑动窗口 | CASP9 | CASP10 | CASP11 | CASP12 | CB513 | PDB25 |
---|---|---|---|---|---|---|
13 | 82.97 | 82.15 | 79.23 | 79.56 | 81.21 | 83.73 |
19 | 83.18 | 82.64 | 79.34 | 81.54 | 82.35 | 84.68 |
表4. 卷积神经网络预测准确率
通过表2,表3和表4进行对比可以发现,生成对抗网络提取到的特征与PSSM矩阵融合,进行3类蛋白质二级结构预测,与单独的使用卷积神经网络相比,准确率有了较大的提高。通过本文实验可以看出,生成对抗网络的特征提取是非常有效的,在CAS P9,CASP10,CASP11,CASP12,CB513,PDB25数据集上分别提高了3.88%,4.6%,7.97%,5.85%,5.78%,4.25%。证明了生成对抗网络特征提取能力的优越性。
蛋白质二级结构预测是生物信息学领域一项具有重大意义的工作,对全面了解蛋白质的功能和结构是必要的。本文融合了生成对抗网络和卷积神经网络模型进行蛋白质二级结构预测,由生成对抗网络提取蛋白质序列特征,再结合PSSM矩阵作为卷积神经网络的输入,进行蛋白质二级结构分类预测。通过与只用卷积神经网络预测结果对比,生成对抗网络的特征提取能力是较强的,能够取得非常显著的效果,有较好的可扩展性。
国家自然科学基金(No. 61375013),山东省自然科学基金(No. ZR2013FM020)。
赵亚武,张华兰,刘毅慧. 基于生成对抗和卷积神经网络的蛋白质二级结构预测Protein Secondary Structure Prediction Based on Generative Confrontation and Convolutional Neural Network[J]. 计算生物学, 2020, 10(04): 49-56. https://doi.org/10.12677/HJCB.2020.104006
https://doi.org/10.2174/138920305774329368
https://doi.org/10.1016/j.biochi.2008.09.005
https://doi.org/10.1109/TNB.2004.837906
https://doi.org/10.1109/ITNEC.2016.7560411
https://doi.org/10.1016/j.artmed.2004.01.009
https://doi.org/10.1145/3029375.3029382
https://doi.org/10.1002/prot.10082
https://doi.org/10.1093/bioinformatics/btx218
https://doi.org/10.1093/bioinformatics/bty1006
https://doi.org/10.1038/s41598-018-28084-8
https://doi.org/10.1002/prot.25487
https://doi.org/10.1006/jmbi.1999.3091
https://doi.org/10.1002/bip.360221211
https://doi.org/10.1093/nar/gkt1240
https://doi.org/10.1093/nar/gki402
https://doi.org/10.1002/prot.23200
https://doi.org/10.1002/prot.24452
https://doi.org/10.1002/(SICI)1097-0134(19990301)34:4<508::AID-PROT10>3.0.CO;2-4
https://doi.org/10.1016/j.bbrc.2006.07.141
https://doi.org/10.1148/rg.2017170077