组蛋白赖氨酸特异性去甲基酶1 (LSD1)是一种黄素腺嘌呤二核苷酸(FAD)依赖性胺氧化酶,可特异性识别H3K4和H3K9底物,并去除其单甲基或二甲基修饰。它介导许多细胞内信号通路,与肿瘤的发生和发展密切相关。因此,开发高效、特异的LSD1抑制剂不仅有利于研究LSD1的生物学功能,而且对抗肿瘤药物的开发具有重要的科学意义。建立定量构效关系(QSAR)模型可以预测分子的物理和化学性质。在本研究中,利用基因表达编程(GEP)建立了一个具有描述符的非线性定量构效关系(QSAR)模型,并预测了一系列新型苯并呋喃化疗药物的活性。这些描述符是在CODESSA软件中计算的,并基于启发式算法从描述符池中选择。选择4个描述符来建立多元线性回归模型。获得了训练集和测试集的最佳非线性QSAR模型,相关系数分别为0.92和0.80,平均误差分别为0.07和0.60。显然,基于GEP的QSAR模型具有更好的抑制剂疗效预测稳定性。这些发现对LSD1抑制剂作为高选择性的一流临床候选药物的设计提供了新的价值。 Histone lysine specific demethylase 1 (LSD1) is a flavin adenine dinucleotide (FAD) dependent amine oxidase, which can specifically recognize H3K4 and H3K9 substrates and remove their monomethyl or dimethyl modifications. It mediates many intracellular signal pathways and is closely related to the occurrence and development of tumors. Therefore, the development of effi-cient and specific LSD1 inhibitors is not only conducive to the study of the biological function of LSD1, but also has important scientific significance for the development of anti-tumor drugs. Estab-lishing a quantitative structure-activity relationship (QSAR) model can predict the physical and chemical properties of molecules. In this study, gene expression programming (GEP) was used to build a nonlinear quantitative structure activity relationship (QSAR) model with descriptors and to predict the activity of a series of novel DNA-targeted chemotherapeutic agents. These descriptors were calculated in CODESSA software and selected from the descriptor pool based on heuristics. Four descriptors were selected to establish a multiple linear regression model. The best nonlinear QSAR model with a correlation coefficient of 0.92 and 0.80 and mean error of 0.07 and 0.60 for the training and test sets were obtained. It is apparent that the QSAR model based on GEP has better forecasting stability of inhibitor efficacy. These findings should be useful for the design of LSD1 in-hibitors as highly selective first-in-class clinical candidate.
组蛋白赖氨酸特异性去甲基酶1 (LSD1)是一种黄素腺嘌呤二核苷酸(FAD)依赖性胺氧化酶,可特异性识别H3K4和H3K9底物,并去除其单甲基或二甲基修饰。它介导许多细胞内信号通路,与肿瘤的发生和发展密切相关。因此,开发高效、特异的LSD1抑制剂不仅有利于研究LSD1的生物学功能,而且对抗肿瘤药物的开发具有重要的科学意义。建立定量构效关系(QSAR)模型可以预测分子的物理和化学性质。在本研究中,利用基因表达编程(GEP)建立了一个具有描述符的非线性定量构效关系(QSAR)模型,并预测了一系列新型苯并呋喃化疗药物的活性。这些描述符是在CODESSA软件中计算的,并基于启发式算法从描述符池中选择。选择4个描述符来建立多元线性回归模型。获得了训练集和测试集的最佳非线性QSAR模型,相关系数分别为0.92和0.80,平均误差分别为0.07和0.60。显然,基于GEP的QSAR模型具有更好的抑制剂疗效预测稳定性。这些发现对LSD1抑制剂作为高选择性的一流临床候选药物的设计提供了新的价值。
组蛋白赖氨酸特异性去甲基酶1 (LSD1),定量构效关系(QSAR),启发式算法,基因表达编程(GEP)
Yuqi Zhang1*, Jing Guo1, Mingxiu Qiu2, Jiani Liu1, Yan Wang1, Chunyang Zhu1, Shufen Zhao1#, Wensheng Qiu1#
1Oncology Department, Affiliated Hospital of Qingdao University, Qingdao Shandong
2Department of Respiratory and Critical Care Medicine, Qingdao Municipal Hospital, Qingdao Shandong
Received: Apr. 28th, 2023; accepted: May 21st, 2023; published: May 31st, 2023
Histone lysine specific demethylase 1 (LSD1) is a flavin adenine dinucleotide (FAD) dependent amine oxidase, which can specifically recognize H3K4 and H3K9 substrates and remove their monomethyl or dimethyl modifications. It mediates many intracellular signal pathways and is closely related to the occurrence and development of tumors. Therefore, the development of efficient and specific LSD1 inhibitors is not only conducive to the study of the biological function of LSD1, but also has important scientific significance for the development of anti-tumor drugs. Establishing a quantitative structure-activity relationship (QSAR) model can predict the physical and chemical properties of molecules. In this study, gene expression programming (GEP) was used to build a nonlinear quantitative structure activity relationship (QSAR) model with descriptors and to predict the activity of a series of novel DNA-targeted chemotherapeutic agents. These descriptors were calculated in CODESSA software and selected from the descriptor pool based on heuristics. Four descriptors were selected to establish a multiple linear regression model. The best nonlinear QSAR model with a correlation coefficient of 0.92 and 0.80 and mean error of 0.07 and 0.60 for the training and test sets were obtained. It is apparent that the QSAR model based on GEP has better forecasting stability of inhibitor efficacy. These findings should be useful for the design of LSD1 inhibitors as highly selective first-in-class clinical candidate.
Keywords:Lysine Specific Demethylase 1 (LSD1), Quantitative Structure-Activity Relationship (QSAR), Heuristic Method, Gene Expression Programming
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
肿瘤的发生和发展与遗传物质密切相关,即使核苷酸序列没有改变,仍然存在基因表达差异的可能性,从而导致疾病的发生。这种调控机制属于表观遗传学的范畴,主要包括DNA甲基化、组蛋白修饰和微小RNA的转录后调控等。DNA附着在组蛋白核小体上,其转录受组蛋白修饰的调节。组蛋白特异性去甲基酶1 (LSD1)可以调节组蛋白修饰,其异常表达与许多肿瘤疾病的发生和预后密切相关 [
组蛋白去甲基化酶1 (LSD1),又被称作KDM1A/AOF2,是一种高度保守的腺嘌呤二核苷酸(FAD)依赖性氧化酶 [
迄今为止,在文献中已经发现了许多LSD1抑制剂,并根据其分类作用机制。可以考虑两种不同类型的抑制剂:1) Tranylcypromine (TCP)及其类似物作为不可逆抑制剂的代表,其通过与辅因子FAD共价结合来抑制LSD1的活性;2) 可逆性抑制剂可以与底物竞争结合活性位点 [
定量构效关系(Quantitative Structure-Activity Relationship,简称QSAR)即通过数学方法建立化合物的分子描述符与其生物活性/毒性之间的线性或非线性关系模型,在分子水平阐明结构与生物学及物理化学特性之间的关系。近十几年来,随着分子生物学和计算机科学的快速发展,使QSAR研究提高到了一个新的水平,计算机辅助药物设计(CADD)在新药的研发中起着越来越重要的作用。QSAR研究对于设计和筛选生物活性显著的药物,以及阐明药物的作用机理等均具有指导作用 [
建立QSAR模型的数学算法有很多,如逐步回归(SMR)、多元线性回归(MLR)、径向基函数神经网络(RBFNN)、人工神经网络(ANN)和支持向量机(SVM)等。近年来的研究表明,基因表达编程(GEP)算法具有简单、灵活和高效的优点,因此GEP方法被广泛应用于QSAR模型的建立。
本研究旨在建立了一个可靠的QSAR模型,使用GEP方法揭示靶向LSD1的新型苯并呋喃衍生物的分子结构与其肿瘤抑制活性之间的关系。与此同时,该模型可以为进一步探索和预测癌症新靶向药物提供重要的理论基础。
QSAR研究的第一步是选择合适的数据和建立数据集,化学物的活性应该在活性范围内均匀分布,为训练集选择的化学物质应具有足够的结构多样性,以跨越与所研究的生物活性相关的化学空间范围。从文献 [
名称 | 化合物 | Ic50 | 名称 | 化合物 | Ic50 |
---|---|---|---|---|---|
17a |
|
0.135 | 17b |
|
0.114 |
17c |
|
0.128 | 17d |
|
0.42 |
17e |
|
0.053 | 17f |
|
0.135 |
17g |
|
0.158 | 17h |
|
0.154 |
17i |
|
0.065 | 17j |
|
0.674 |
17k |
|
0.076 | 17l |
|
0.074 |
17m |
|
0.061 | 17n |
|
0.170 |
17o |
|
0.264 | 17p |
|
0.73 |
17q |
|
2.616 | 17r |
|
0.415 |
21a |
|
0.122 | 21b |
|
0.252 |
21c |
|
0.184 | 21d |
|
0.229 |
21e |
|
0.128 | 21f |
|
0.22 |
21g |
|
0.188 | 21h |
|
0.172 |
21i |
|
0.225 | 21j |
|
0.221 |
21k |
|
0.108 | 21l |
|
0.064 |
21m |
|
0.09 | 21n |
|
1.484 |
21o |
|
0.5 | 21p |
|
0.145 |
21q |
|
2.096 | 21r |
|
0.147 |
21s |
|
0.408 | 21t |
|
9.193 |
表1. 38种化合物的IC50值(HM)
在QSAR研究中,良好的模型的构建必须使用准确合理的分子描述符,分子描述符测量分子性质的某些方面,无论是其物理和化学性质,还是通过基于分子结构的各种算法导出的数值指数。已经报道了各种各样的描述符用于QSAR分析,例如静电、拓扑、几何和量子化学描述符。
在这项研究中,使用Chemdraw软件绘制了化合物的化学结构,然后将分子结构导入Hyperchem [
启发式算法(heuristic method)是二维定量结构–活性关系研究常用的方法之一,在计算机药物辅助设计中也得到广泛应用。通过CODESSA软件中的启发式算法可对药物分子结构进行分析,对计算得到的大量分子描述符进行筛选,能够快速建立预测药物活性的最佳多元线性方程。对方程中描述符的深入研究,可获得影响药物活性的理化因素,为随后的药物设计提供思路。HM建立线性关系的步骤模型是:首先,选择单参数描述符,使用R2、F检验和T检验作为标准选择,并删除相关性低的描述符。其次,选择两个参数描述符,并使用R2和F检验作为标准选择。最后,选择n个参数描述符。在获得具有最佳统计特征的双参数相关系数之后,添加在先前选择过程中未使用的描述符。重复此步骤,直到建立的相关方程包含最多的参数。模型评估的标准为R2、F检验值、t检验值和R2cv。因此,HM [
遗传表达式编程(Genetic Expression Programming, GEP)是一种用于解决机器学习、数据分析、优化和模式识别等领域问题的进化算法 [
图1. GEP算法的计算步骤
问题的效率 [
在GEP中,基因由头部和尾部组成。标题由终端和功能符号组成,尾部仅由终端符号组成。假设头部长度为h,尾部长度为t,关系如下:
t = h n − 1 + 1
在该方程中,n表示需要函数符号集中最多变量的函数。显然,基因的长度可以通过以下公式计算:
l = h + t = n ∗ h + 1
GEP算法的主要步骤如图1所示。首先,一定数量的染色体个体是随机的作为初始种群生成并表达。接下来,从一组适合度样本计算每个个体的适合度。对群体循环执行遗传操作,直至满足终止准则为止 [
CODESSA软件为每个计算了487个描述符合物。为了获得与LSD1抑制剂活性最相关的一组描述符,首先建立了描述符数量范围为1到9的线性回归模型。不同数量的描述符对R2和S的影响如图2所示。结果表明,随着描述符数量的增加,R2增加,S2减少。在描述符数量增加到5之后,R2的增加速率和S2的降低速率略有下降,并且模型使用过多的描述符的概括能力很差。综合考虑后,模型具有4个描述符被选为预测抑制剂活性的最佳线性模型。
图2. 不同数量的描述符对R2和S2的影响
表2显示了这些描述符的详细信息。如前所述,模型的实用性是最终目的,但要应用模型就必须保证模型有可靠高效的预测能力。因此本论文从建立QSAR模型的各个步骤考虑,试图解决目前QSAR研究中还有待完善的问题,特别是在化合物活性构象的选择、引入新的建模方法以及新的建模策略等方面,旨在尽可能考虑QSAR的不同角度提高模型的可靠性以及外部预测能力。同时,把建立的具有很好预测能力的定量构效关系模型用于活性化合物的设计和筛选。
HM模型的图形如图3所示。
分子描述符 | 物理–化学意义 | 相关系数 | T检验 |
---|---|---|---|
HACA-2/TMSA | 氢键供体原子的表面电荷面积加权表分数 | 5.8489e+02 | 10.8596 |
Relative number of rings | 环的相对数量 | 1.3510e+01 | −3.9921 |
Complementary Information content | 补充信息内容 | 9.8407e−03 | 3.3387 |
Min partial charge for a H atom | H原子的最小部分电荷 | 5.2309e+01 | 2.5869 |
表2. 选择的分子描述符及其物理–化学意义,系数和T检验
图3. 通过HM测量和计算IC50的绘图
线性模型方程如下:
IC50 = 2.3176 + 58.489*氢键供体原子的表面电荷面积加权表分数 + 1.351*环的相对数量 + 0.0098*补充信息内容 + 5.2309*H原子的最小部分电荷
根据方程中系数的绝对值,描述符对LDS1抑制剂活性的影响如下:补充信息内容 > 氢键供体原子的表面电荷面积加权表分数 > H原子的最小部分电荷 > 环的相对数量。所选的四个描述符是在下文中进行了解释,以更深入地了解可能影响LSD1抑制剂的活性。
HDCA-2/TMSA表示氢键供体原子HDCA-2的面积加权表面电荷;HDCA-2的计算如下:
H D C A 2 = ∑ D q D s D S t o t D ∈ H H − d o n o r
它对分子的构象变化具有重要意义 [
Complementary Information content表示补充信息内容,计算如下:
C k I C = log 2 n − I k C
I k C = − ∑ i = 1 k n i n log 2 n i n
Min partial charge for a H atom和Relative number of rings分别表示H原子的最小部分电荷,以及环的相对数量,他们反映了化合物的分子组成 [
数据集被随机分成30个化合物的训练集和8个化合物的测试集,然后是非线性模型是使用软件自动问题求解器(APS)建立的以集成GEP算法的实现。为了获得更准确和普遍的模型,我们在APS中介绍了六个描述符,并通过GEP功能集建立了非线性模型。表3列出进化过程中使用的参数。
参数名称 | 符号 | 值 |
---|---|---|
乘 | * | 1 |
除 | / | 1 |
10^x | Pow10 | 1 |
自然对数 | LN | 1 |
绝对值 | Abs | 1 |
反函数 | Neg | 1 |
余割函数 | Csc | 1 |
正割函数 | Sec | 1 |
表3. 简单符号回归问题的参数
最后,训练集和测试集的相关系数分别为0.92和0.80,并且在830rd代中获得了0.07和0.60的标准误差。图4显示了GEP模型图。
图4. 通过GEP测量和计算的图IC50
任何QSAR建模的主要目标是开发的模型应该足够强大,可以对新化合物的生物活性进行准确和可靠的预测。在本研究中,由HM,GEP建立的非线性模型在预测38种LDS1抑制剂的活性方面显示出更好的稳定性和预测能力。为了深入了解描述符的重要性,通过基于系数的绝对值对4个描述符进行排序,得到描述符对IC50的影响力大小。所建立的模型揭示了影响LDS1抑制剂活性的因素,并为进一步设计用于抗肿瘤的高效药物提供了方向和指导。
三年时间转瞬即逝,我的肿瘤学硕士研究生阶段的学习即将结束。本论文是在导师邱文生教授和郭婧老师的悉心指导和督促下完成的。导师渊博的专业临床医学知识,雄厚的科研能力,严谨的治学态度,精益求精的工作作风,诲人不倦的高尚师德,严以律己、宽以待人的崇高风范,朴实无华、平易近人的人格魅力对我影响深远。不仅使我树立了远大的学术目标还教会我怎样成为一名优秀的临床医生。
衷心感谢邱文生主任、丁爱萍老师、吕静老师、齐卫卫老师、赵淑芬老师、郭婧老师和我的同门师兄妹三年来对我工作学习上指导与鼓励。
衷心感谢青岛大学附属医院提供的良好科研平台。
北京市希思科临床肿瘤学研究基金会(Y-HR2018-185, Y-2019AZZD-0471)。
张渝琪,郭 婧,邱明秀,刘家妮,王 艳,朱春阳,赵淑芬,邱文生. 新型苯并呋喃衍生物作为LSD1抑制剂的QSAR研究QSAR Study of Novel Benzofuran Derivatives as Potent LSD1 Inhibitors[J]. 临床医学进展, 2023, 13(05): 8769-8781. https://doi.org/10.12677/ACM.2023.1351226
https://doi.org/10.1016/j.cell.2004.12.012
https://doi.org/10.1021/jm400870h
https://doi.org/10.1021/jm401002r
https://doi.org/10.1021/acs.jmedchem.5b01209
https://doi.org/10.1021/acs.jmedchem.7b00462
https://doi.org/10.1021/acs.jmedchem.5b00037
https://doi.org/10.1002/med.21350
https://doi.org/10.3390/molecules23071538
https://doi.org/10.1007/s11255-015-0915-2
https://doi.org/10.1007/s11888-014-0253-2
https://doi.org/10.1016/j.ejmech.2020.112243
https://doi.org/10.1016/j.apsb.2019.01.001
https://doi.org/10.1016/j.ejmech.2019.04.065
https://doi.org/10.1016/j.bioorg.2018.11.018
https://doi.org/10.1007/s00726-013-1485-1
https://doi.org/10.1021/ml4002997
https://doi.org/10.1016/j.bmc.2015.01.049
https://doi.org/10.1016/j.bmcl.2013.11.001
https://doi.org/10.1158/1078-0432.CCR-09-1293
https://doi.org/10.1042/bse0460007
https://doi.org/10.1016/j.ejmech.2018.01.098
https://doi.org/10.1039/C8MD00610E
https://doi.org/10.1038/nm.2661
https://doi.org/10.1016/j.ejmech.2021.113501
https://doi.org/10.1073/pnas.0606381103
https://doi.org/10.1021/cr9400976
https://doi.org/10.2174/157340911793743556
https://doi.org/10.4018/978-1-4666-8136-1.ch005
https://doi.org/10.1117/12.871985
https://doi.org/10.1021/cr950202r
https://doi.org/10.1021/ci9700687
https://doi.org/10.1016/j.cpc.2007.10.003
https://doi.org/10.1016/j.petrol.2014.07.035
https://doi.org/10.1007/s11517-018-1811-6
https://doi.org/10.1109/MCI.2017.2708618
https://doi.org/10.1021/ac00220a013