Prediction of DNA 6mA Methylation Sites Based on Bidirectional Long Short-Term Memory Network and Convolutional Neural Network
DNA N6-methyladenine (6mA) is an important epigenetic modification involved in biological processes such as gene regulation, DNA replication, and repair, making it significant for disease research. Therefore, accurately identifying DNA 6mA sites is crucial for understanding their functions and mechanisms. Despite notable successes with existing methods, there is still room for improvement in prediction accuracy and cross-species generalization. In this study, we propose a hybrid deep learning model ( ) that integrates bidirectional long short-term memory networks (BiLSTM) and convolutional neural networks (CNN). Firstly, the model-encoded DNA sequences employ one-hot encoding, EIIP encoding, and DNA dimer encoding. And then optimized under various network architectures, layer configurations and optimizers. We conducted experiments on datasets from Rosaceae, rice and Arabidopsis thaliana, the results indicate that the model achieves an accuracy (ACC) of 94.5% for Rosaceae, 93.8% for rice, and 86.6% for Arabidopsis. Compared to other methods, demonstrates excellent performance in predicting 6mA sites across the three plant species, and exhibits cross-species generalization capabilities.
DNA 6mA Sites
N6-甲基腺嘌呤(6mA)是DNA分子中最重要的表观遗传修饰之一,它在基因表达、核小体定位、细胞周期调节、DNA修复和复制以及限制性修饰(R-M)中起着重要作用
本文基于长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)和卷积神经网络(Convolutional Neural Network, CNN),提出一种高效且具有泛化能力的6mA位点预测方法(BiLSTM→CNN)。首先将DNA序列使用one-hot
BiLSTM
(1)
(2)
(3)
其中公式(1)~(3), 代表输入门, 为sigmoid函数, 代表遗忘门, 为当前隐藏状态, 表示当前输入的单元状态, 代表保留程度, 表示偏置项。前向LSTM的输出为 ,后向LSTM的输出为 。每个时间步 的BiLSTM输出 计算如公式(4)所示。
(4)
CNN
(5)
(6)
公式(5)~(6)中, 是输入序列, 表示卷积核, 表示卷积输出, 表示卷积权重, 是输入序列的局部区域, 是池化窗口的大小, 是最大池化。
神经网络中常用的激活函数有tanh,relu,elu,sigmoid和softmax
tanh函数是一种双曲正切函数,将输入值压缩到[−1, 1]范围内,该函数是中心对称的,即tanh (0) = 0,在二分类问题中tanh函数多用于隐藏层部分,具体表示为公式(7)。
(7)
sigmoid函数将输入值压缩到(0, 1)范围内,该函数的输出可以解释为某个事件发生的概率,故sigmoid函数常用于二分类问题的输出层,将输出转换为概率值,具体表示为公式(8)。
(8)
随机梯度下降(Stochastic Gradient Descent, SGD)是一种简单且常用的优化算法,用于在梯度下降过程中最小化损失函数。
(9)
Adam
(10)
(11)
(12)
(13)
初始时刻的一阶矩和二阶矩均为0, 和 是动量参数,分别设置为0.9和0.999。参数 沿着修正后的一阶矩方向更新,步长由学习率 和修正后的二阶矩的平方根控制, 是一个非常小的常数,防止除零错误。
为充分发挥BiLSTM在长距离依赖关系建模方面的能力,本文提出
模型,将one-hot,EIIP和DNA 2-mer编码后的序列首先传入BiLSTM层,通过双向长短期记忆网络提取序列的长距离依赖关系,然后再将这些长距离依赖特征传入CNN层,通过卷积操作进一步提取局部特征,模型结构如
该模型采用二进制交叉熵作为其损失函数,适用于二元分类任务,公式如下:
(14)
表示真实标签, 表示预测标签。
为了评估模型性能,我们使用准确度(ACC),马修斯相关系数(MCC),灵敏度(SN)和特异度(SP)作为模评价指标,具体计算如公式(15)~(28)所示。
(15)
(16)
(17)
(18)
其中,TP (真阳性)和TN (真阴性)分别表示正确预测的6mA和非6mA样本的数量;FP (假阳性)和FN (假阴性)分别是错误预测的非6mA和6mA样本的数量。
本文使用拟南芥(Arabidopsis)、水稻(Rice)和蔷薇科(Rosaceae)三种植物的DNA 6mA数据进行模型的训练和结果的评估。三个物种的数据集中共包含1个训练集和3个独立测试集,分别是Rosaceae训练集,Rosaceae测试集,Rice测试集和Arabidopsis测试集。本文使用Rosaceae训练集训练模型,将其分成两部分,80%的数据用于训练,20%的数据用于验证,通过对模型的训练,使得该模型能够泛化到Arabidopsis和Rice物种上。四个数据集的详细信息见
数据集 |
阳性样本个数 |
阴性样本个数 |
Rosaceae训练集 |
29,237 |
29,433 |
Rosaceae测试集 |
7298 |
7300 |
Rice测试集 |
153,635 |
153,629 |
Arabidopsis测试集 |
31,414 |
31,843 |
本文将one-hot、EIIP和DNA 2-mer 3种特征组合进行组合,对给定的DNA序列进行编码。在one-hot编码中,每个核苷酸被编码为一个4维二进制向量,即核苷酸A、C、G和T分别被表示为 、 、 和 。EIIP根据核苷酸在给定DNA序列中的电子–离子能量分布来表达核苷酸,四个核苷酸分别表示为A = 0.1260、C = 0.1340、G = 0.0806和T = 0.1335。DNA二聚体编码(DNA 2-mer Encoding)的方法将DNA序列转换为数值数组,即
当然,为了处理DNA序列中的缺失值(表示为“N”),在One-Hot编码和EIIP编码过程中,对于遇到的“N”碱基,我们分别使用了零向量 和数值0.0进行填充;在2-mer编码过程中,缺失碱基分别编码为 。
BiLSTM模块的参数主要涉及BiLSTM的层数以及优化器,我们选取常用的BiLSTM层数1,2和3,优化器为SGD和Adam,并在Rosaceae训练集上对模型进行调试,调试结果见
层数 |
SN |
SP |
ACC |
MCC |
AUC |
1 |
0.943 |
0.926 |
0.934 |
0.869 |
0.978 |
2 |
0.926 |
0.930 |
0.928 |
0.856 |
0.970 |
3 |
0.920 |
0.929 |
0.925 |
0.850 |
0.970 |
优化器 |
SN |
SP |
ACC |
MCC |
AUC |
SGD |
0.425 |
0.659 |
0.542 |
0.088 |
0.562 |
Adam |
0.943 |
0.926 |
0.934 |
0.869 |
0.978 |
从
对CNN模块的选择,我们同样选取常用的参数,并在Rosaceae训练集上进行调试,结果见
层数 |
SN |
SP |
ACC |
MCC |
AUC |
1 |
0.933 |
0.952 |
0.942 |
0.885 |
0.982 |
2 |
0.927 |
0.925 |
0.926 |
0.852 |
0.974 |
3 |
0.929 |
0.924 |
0.927 |
0.853 |
0.973 |
卷积层 |
压平层 |
SN |
SP |
ACC |
MCC |
AUC |
relu |
relu |
0.935 |
0.946 |
0.940 |
0.881 |
0.981 |
elu |
elu |
0.938 |
0.948 |
0.943 |
0.886 |
0.982 |
relu |
tanh |
0.942 |
0.944 |
0.943 |
0.887 |
0.982 |
elu |
relu |
0.937 |
0.944 |
0.941 |
0.882 |
0.981 |
tanh |
tanh |
0.940 |
0.947 |
0.944 |
0.888 |
0.982 |
relu |
elu |
0.932 |
0.952 |
0.942 |
0.885 |
0.982 |
tanh |
relu |
0.941 |
0.942 |
0.941 |
0.883 |
0.981 |
elu |
tanh |
0.940 |
0.946 |
0.943 |
0.887 |
0.982 |
tanh |
elu |
0.937 |
0.947 |
0.942 |
0.885 |
0.982 |
优化器 |
SN |
SP |
ACC |
MCC |
AUC |
SGD |
0.901 |
0.892 |
0.896 |
0.793 |
0.958 |
Adam |
0.939 |
0.949 |
0.944 |
0.889 |
0.983 |
从
基于上述3个物种的独立测试集,我们将
方法与现有方法进行比较。
在Rice物种中,尽管 模型的SN值(0.946)略低于几种方法,但在其他三3个评估指标上表现出色。与目前对Rice 6mA位点预测的最优方法Meta-i6mA相比,ACC提高0.058,MCC提高0.108,SP提高0.128。与最新的6mA-StackingCV相比,上述3个指标分别高0.093,0.169和0.204。表明 模型在Rice物种中具有卓越的预测性能,尤其是在减少假阴性方面表现优异。
在Arabidopsis物种中, 模型在4个评估指标中依然表现出色。与目前对Arabidopsis中6mA位点预测最好和最新的方法6mA-StackingCV相比,其ACC提高0.084,MCC提高0.154,SN提高0.180,并且在所有方法中均为最优。其SP值为0.873,仅低于Meta-i6mA的0.936,排名第二。表明, 模型在对Arabidopsis物种的6mA位点预测方面具有显著的优势。
尽管 模型在Rosaceae独立测试数据集上的表现性能略低于6mA-StackingCV和Meta-i6mA,但是4个指标的值在所有方法中均位于前列。并且与最好的方法6mA-StackingCV相比,各项指标的差异最大为0.029,展示了其在该物种上同样具有竞争力。
综上所述, 在3个独立测试集上均达到了较好的性能,并且相对于其他方法,具有更好的泛化能力。
独立测试集 |
模型 |
ACC |
MCC |
SN |
SP |
Rosaceae |
Meta-i6mA* |
0.953 |
0.905 |
0.954 |
0.951 |
iDNA6mA-Rice* |
0.878 |
0.764 |
0.951 |
0.805 |
|
MM-6mAPred* |
0.873 |
0.758 |
0.961 |
0.785 |
|
6mA-StackingCV* |
0.960 |
0.920 |
0.959 |
0.961 |
|
BiLSTM + CNN |
0.945 |
0.891 |
0.945 |
0.945 |
|
Rice |
Meta-i6mA* |
0.880 |
0.768 |
0.957 |
0.802 |
iDNA6mA-Rice* |
0.755 |
0.561 |
0.960 |
0.547 |
|
MM-6mAPred* |
0.834 |
0.689 |
0.958 |
0.710 |
|
6mA-StackingCV* |
0.845 |
0.710 |
0.963 |
0.726 |
|
BiLSTM + CNN |
0.938 |
0.876 |
0.946 |
0.930 |
|
Arabidopsis |
Meta-i6mA* |
0.787 |
0.600 |
0.636 |
0.936 |
iDNA6mA-Rice* |
0.734 |
0.473 |
0.655 |
0.812 |
|
MM-6mAPred* |
0.765 |
0.531 |
0.784 |
0.747 |
|
6mA-StackingCV* |
0.782 |
0.576 |
0.677 |
0.866 |
|
BiLSTM + CNN |
0.866 |
0.730 |
0.857 |
0.873 |
星号(*)表示结果来自文献
为了验证各模块的有效性以及BiLSTM和CNN顺序的合理性,我们还比较了仅使用CNN或者BiLSTM,以及BiLSTM和CNN不同的组合方式在不同数据集上的预测结果。这几种模型分别记为CNN,BiLSTM,
(表示CNN在前,BiLSTM在后)以及
(表示CNN和BiLSTM并联),本文模型记为
。
从
独立测试集 |
模型 |
ACC |
MCC |
SN |
SP |
Rosaceae |
BiLSTM |
0.912 |
0.825 |
0.914 |
0.910 |
CNN |
0.942 |
0.884 |
0.948 |
0.937 |
|
|
0.940 |
0.879 |
0.939 |
0.940 |
|
|
0.941 |
0.882 |
0.940 |
0.942 |
|
|
0.945 |
0.891 |
0.945 |
0.945 |
续表
Rice |
BiLSTM |
0.938 |
0.876 |
0.945 |
0.931 |
CNN |
0.938 |
0.877 |
0.943 |
0.934 |
|
|
0.937 |
0.875 |
0.941 |
0.933 |
|
|
0.937 |
0.875 |
0.942 |
0.933 |
|
|
0.938 |
0.876 |
0.946 |
0.930 |
|
Arabidopsis |
BiLSTM |
0.847 |
0.694 |
0.826 |
0.867 |
CNN |
0.865 |
0.733 |
0.849 |
0.884 |
|
|
0.864 |
0.729 |
0.844 |
0.883 |
|
|
0.863 |
0.727 |
0.840 |
0.886 |
|
|
0.866 |
0.730 |
0.857 |
0.873 |
本文提出了一种基于BiLSTM和CNN的DNA 6mA甲基化位点混合预测模型 。首先利用one-hot、EIIP和DNA二聚体3种编码方式对DNA序列进行编码,然后在不同网络结构、层数、优化器和学习率下优化模型,并在拟南芥、水稻和蔷薇科三种植物上进行了实验验证。本文通过对比单一CNN模型、单一BiLSTM模型、CNN↔BiLSTM模型、CNN→BiLSTM模型以及本文提出的BiLSTM→CNN模型在Rosaceae、Rice和Arabidopsis三个独立测试数据集上的预测结果,表明BiLSTM→CNN模型在总体准确率(ACC)方面均达到最优,且在多数性能指标上也表现出色。尽管在Rosaceae中的敏感性(SN)、Rice中的马修斯相关系数(MCC)和特异性(SP),以及Arabidopsis中的MCC和SP方面略低于某些模型,但其综合性能和泛化能力仍然显著优于其他模型。因此,BiLSTM→CNN模型在6mA位点预测任务中展现出优越的性能。与现有方法相比,本文模型在DNA 6mA甲基化位点的预测上表现出更优的性能。
值得注意的是,DNA 6mA甲基化位点的预测工作相当复杂,算法的预测能力不仅取决于模型本身,还与位点附近的序列和位点分布相关,有效结合这些特征可以显著提升预测效果。随着研究手段和计算方法的不断进步,大量新的DNA 6mA甲基化位点将被确定,为识别这些位点提供新的数据支持。在未来的研究中,我们还考虑进一步优化特征编码融合方式,集成多种深度学习方法,以及在更广泛的数据集进行试验评估,从而得到更优的DNA 6mA预测模型。
云南省研究生优质课程建设项目“高等数理统计”(云学位[2022] 8号)。
*通讯作者。