ERα Targeted Compound Screening and Optimization: ADMET Model Based on Deep Learning and Multi-Objective Optimization
Currently, anti-breast cancer drug candidate compounds are facing many heavy challenges in drug discovery such as time and cost. Therefore, in this paper, we propose an approach that integrates Lasso regression and BP neural network models for screening and optimizing ERα-targeting compounds. First, important molecular descriptors related to biological activity (pIC50) were screened using Lasso regression and predicted by neural network for ADMET classification. The experimental results showed that this method can effectively improve the prediction accuracy of drug activity and safety. The top 20 important features screened from Lasso regression had a significant effect on drug activity, and the accuracy of the constructed random forest regression model reached 89% on the test set. And the screened features also performed well in the ADMET classification task in BP neural network, with an accuracy of 91% in the CYP3A4 task. This method provides a referable idea for the screening and optimization of ERα antagonists.
Lasso Regression
胰腺癌
随着药物研发的成本和周期日益增加,定量结构–活性关系(QSAR)
尽管已有许多关于胰腺癌药物筛选(QSAR)模型和ADMET预测的研究取得了显著进展,但药物的非线性生物活性与ADMET性质之间的复杂关系仍然是研究中的难点。本文提出了一种基于Lasso回归的方法,通过在最小二乘回归的目标函数中加入L1正则化项(即系数的绝对值之和),从而使某些回归系数变为零。该方法筛选出对模型预测最重要的特征,进而研究定量结构–活性关系。并在此基础上,构建了BP神经网络,用于对生物活性数据进行ADMET分类预测。
BP神经网络(Backpropagation Neural Network,即反向传播神经网络)是最常见的人工神经网络类型之一,广泛应用于机器学习和深度学习任务。它属于前馈神经网络(Feedforward Neural Network)范畴,包含输入层、多个隐藏层以及输出层,借助反向传播算法进行训练,能够自动学习输入数据与输出之间的复杂非线性关系。以下是对BP神经网络的详细介绍。
假设输入层有n个神经元(特征),隐藏层有m个神经元。输入向量为 ,隐藏层的输出为 。每个隐藏层神经元的输入是输入特征的加权和:
(1)
其中, 为输入层第 个神经元到隐藏层第 个神经元的权重, 是偏置项。通过激活函数计算隐藏层输出 。
(2)
其中, 是激活函数Sigmoid。同理,输出层神经元的输入 ,是隐藏层输出的加权和,再通过激活函数计算输出 。
对于分类任务,损失函数使用交叉熵损失:
(3)
其中, 是真实标签的One-hot编码, 是模型的预测概率。
后向传播的目的是计算损失函数对网络中每个参数(权重和偏置)的梯度,并使用这些梯度来更新参数。计算输出层的误差项(梯度),反映了模型预测与真实标签之间的差异。对于每个输出层神经元 ,误差项为:
(4)
如果网络有多个隐藏层,可以继续通过链式法则将误差传播到输入层。对于多层网络,每一层的误差项由上一层的误差项计算而来。使用梯度下降法更新每层的权重和偏置。
(5)
(6)
其中, 是学习率。
当前,药物筛选面临生物相容性、代谢途径复杂性、毒性评估等多维度挑战,传统方法往往依赖大量实验以及漫长的测试周期。为提高筛选效率,本文提出了一种多目标优化的ADMET模型,利用Lasso回归筛选与化合物活性相关的重要分子特征,并结合ADMET (吸收、分布、代谢、排泄和毒性)标准筛选符合条件的化合物。通过计算分子描述符并将其作为神经网络的输入,BP神经网络依据这些特征预测药物的 ADMET性质。经过训练后,模型能够准确预测药物的活性和安全性,从而帮助筛选出具有良好药效和安全性的候选化合物。进一步分析高活性化合物在各重要特征上的四分位范围,揭示在优化药物活性与安全性时哪些特征值至关重要,为药物设计提供数据支持,有助于识别兼具高活性与良好安全性的化合物。具体分析流程见
本研究使用的数据集来源于2021年研究生数学竞赛,聚焦于抗胰腺癌候选药物的优化建模。数据集包含Molecular_Descriptor、ERα_activity、ADMET三个EXCEL表格。其中Molecular_Descriptor:该数据集包括1974个化合物的729个分子描述符,每一行代表一个化合物,每一列对应一个不同的分子描述符。SMILES列提供了每个化合物的化学结构信息,其他列则描述了化合物的结构和化学性质。
:该数据集记录了每个化合物的生物活性,每一行对应一个化合物,列包含了该化合物的pIC50值,表示其对
的生物活性。ADMET:该数据集包含了与ADMET相关的五个重要属性(吸收、分布、代谢、排泄和毒性)。每个化合物的属性Caco-2渗透性、CYP3A4代谢、hERG心脏毒性等通过0或1的标记表示是否符合良好的性质标准,其中0表示不符合,1表示符合。因Molecular_Descriptor的变量多,这里只展示了6个变量以及pIC50的数据,详情见
统计量 |
pIC50 |
ALogP |
ALogp2 |
AMR |
apol |
naAromAtom |
nAromBond |
续表
count |
1974 |
1974 |
1974 |
1974 |
1974 |
1974 |
1974 |
mean |
6.59 |
1.11 |
3.29 |
116.56 |
60.63 |
15.45 |
16.19 |
std |
1.42 |
1.43 |
12.83 |
31.57 |
19.45 |
5.16 |
5.64 |
min |
2.46 |
−23.11 |
0.00 |
54.07 |
30.66 |
0.00 |
0.00 |
25% |
5.38 |
0.38 |
0.41 |
88.30 |
44.43 |
12.00 |
12.00 |
50% |
6.58 |
1.17 |
1.56 |
114.84 |
59.90 |
16.00 |
18.00 |
75% |
7.57 |
1.95 |
4.02 |
141.42 |
74.42 |
18.00 |
18.00 |
max |
10.37 |
5.18 |
533.84 |
517.43 |
359.66 |
30.00 |
34.00 |
类别 |
Caco-2 |
CYP3A4 |
hERG |
HOB |
MN |
0 |
1215 |
1461 |
1099 |
1465 |
1514 |
1 |
759 |
513 |
875 |
509 |
460 |
合计 |
1974 |
1974 |
1974 |
1974 |
1974 |
在数据处理过程中,首先提取分子描述符(去除SMILES列)与生物活性(pIC50)数据。随后,删除描述符数据中零值占比超90%的特征列,以降低噪声干扰。接着,对描述符数据进行标准化处理,消除特征间的量纲差异,进而确保模型能够有效处理不同尺度的数据。可见
接下来,采用Lasso回归(带5折交叉验证)进行变量选择,评估各分子描述符对生物活性(pIC50)的影响。通过Lasso回归的系数(其绝对值作为特征重要性)对特征进行了排序。为了便于展示,以下展示了前十个重要变量的回归系数路径图(见
通过Lasso回归分析,筛选出对生物活性(pIC50)影响最显著的前20个分子描述符,包括nHBAcc (氢键受体数目)、C3SP2 (SP2杂化的碳原子数目)、MLFER_A (分子线性自由能关系A项)、SHCsats (饱和度结构特征)等。这些特征的回归系数表明它们与ERα生物活性之间的关系,正系数C3SP2和MLFER_A表示这些特征与活性呈正相关,负系数nHBAcc和mindO则表示与活性呈负相关。
结合上面的4.1 Lasso回归筛选的20个重要的分子描述符,将数据集划分为训练集和测试集,其中80%的数据用于训练,20%的数据用于测试,并构建了一个包含100棵树的随机森林回归模型,在训练集上进行预测,得到训练集的pIC50预测值,并绘制了测试集样本的真实值与预测值的对比图(见
在模型评估方面,真实值与预测值的对比图(如上图所示)提供了直观的预测结果展示。图中蓝色点代表真实值,橙色星号代表预测值,纵轴表示pIC50值,横轴为样本编号。通过对比可以发现,大部分样本的预测值与真实值较为接近,说明模型在大多数样本上具有较好的预测能力。
这里基于BP神经网络进行化合物的ADMET分类预测,其中BP网络包含一个隐藏层,隐藏层具有50个神经元,输出层则有2个神经元,分别对应于分类任务的两个类别。在训练过程中,使用训练集数据作为输入,采用随机梯度下降(SGD)优化算法对模型进行训练,同时使用交叉熵损失函数计算损失。通过反向传播算法,网络更新参数,并进行1000次迭代训练(见
下
任务 |
准确率 |
召回率 |
精确度 |
F1值 |
Caco-2 |
0.8887 |
0.8761 |
0.89 |
0.91 |
CYP3A4 |
0.914 |
0.9037 |
0.8 |
0.84 |
hERG |
0.8567 |
0.8545 |
0.84 |
0.84 |
HOB |
0.8432 |
0.7384 |
0.86 |
0.90 |
MN |
0.8786 |
0.7673 |
0.91 |
0.69 |
基于BP神经网络进行ADMET分类预测,模型在不同任务中的表现有所不同。对于CYP3A4任务,模型表现最优,准确率为91.4%,精确度和召回率均较高,F1值为0.84,表明该任务的分类效果较为理想。Caco-2任务的准确率为88.87%,F1值为0.91,显示了较强的综合表现。hERG任务的准确率为85.67%,精确度和召回率相对平衡,F1值为0.84,整体表现较好。MN任务的准确率为87.86%,精确度高达91%,但召回率较低,F1值为0.69,表明该任务的分类效果稍逊,尤其是在识别正类样本方面。总体而言,模型在多数任务中表现优异,但在某些任务上仍有提升空间,特别是在提高召回率和F1值方面。
为了阐明哪些分子描述符能够提高化合物对抑制ERα的生物活性,同时具有更好的ADMET性质,需要计算出pIC50值的中位数,并标记出所有活性值高于中位数的化合物,作为“高活性”化合物。然后,将“高活性”化合物与符合良好ADMET条件的化合物进行筛选,只有同时满足这两个条件的化合物才会被标记为“优质化合物”。接着,对于这些符合条件的优质化合物,计算它们在当前特征值上的25%和75%分位数,以确定该特征值在优质化合物中的分布范围,并进一步计算这些化合物在该特征值上的中位数。最终,通过对比“优质化合物”与其他化合物的特征值分布,绘制对比图(见
通过分析每个分子描述符的最佳范围和中位值,可以得出哪些特征对优质化合物的生物活性和ADMET性质至关重要。图中,C3SP2和MLFER_A的最优范围分别为4.00~4.75和1.01~1.10,表明这些特征在这一范围内能够显著提高化合物活性,并且它们的中位数值分别为4和1.089,显示出这一趋势在大多数优质化合物中的一致性。相反,nHBAcc和mindO的最优范围为0,且中位数值为0,表明较低的氢键受体数目和氧含量有助于化合物的优化。
本研究将Lasso回归与神经网络模型相结合,对与 抑制活性及ADMET性能相关的分子描述符进行了分析。在Lasso回归中,筛选出了前20个关键分子描述符,发现C3SP2和MLFER_A等特征在特定范围内能够显著提高化合物活性,而nHBAcc和mindO则在取值较低时有助于优化活性。通过随机森林回归模型预测 生物活性,准确率达到89%,表明该模型能够较好地捕捉化合物的活性规律。在ADMET分类预测方面,BP神经网络模型在CYP3A4任务上表现最佳,准确率为91.4%,但在MN任务上的召回率较低,需进一步优化。总体而言,模型有效提高了药物活性和安全性的预测精度,为药物优化提供了有价值的参考。
重庆对外经贸学院科学研究项目(KYZK2024052)。
*通讯作者。