2023年5月22日,来自美国Biogen(渤健)的研究人员在Journal of Chemical Information and Modeling上发表论文《Prospective Validation of Machine Learning Algorithms for Absorption, Distribution, Metabolism, and Excretion Prediction: An Industrial Perspective》。论文中,作者收集了跨越20个月包含6种ADME性质的120个数据集,评估并分析了机器学习算法在性质预测中的应用,同时也分析了分子的不同表征方法对模型性能的影响。
1 摘要
2 引言
ADME描述了药物在生物体内的作用情况(disposition)。这些过程共同定义了药物在作用部位的浓度分布,因此影响了化合物的药理作用和剂量方案。一个成功的候选药物应该平衡ADME性质与其他关键性质,如效力、合成性和安全性。在药物发现的早期阶段,主要化合物的药代动力学特征通常通过体外性质(如内在清除率(intrinsic clearance)、渗透性(permeability)、主动外排(active efflux)、血浆蛋白结合(plasma protein binding))来估计,并依据ADME性质来排序优先考虑的化合物。在产生体外数据之前,制药公司通常使用计算模型来快速评估ADME性质,以支持设计具有最佳机会的新分子,使其成为高质量、差异化的临床候选药物。
3 方法
3.1 数据
在3521个化合物中,公共数据集具有3028个不同的骨架(36个)和2736个单重态(即仅包含一种化合物的骨架的数量),分别对应于0.85和0.77的骨架和单重态的分数,而Biogen数据集的骨架和单重态的比例分别为0.51和0.38。除了增加的结构多样性外,公共ADME数据集涵盖了所有6个体外ADME性质的实验值的很大范围(表2),并代表了单独或结合专有数据建立计算预测ADME模型的宝贵起点。表2也显示了使用RF、LightGBM、MPNN1和MPNN2预测6个体外ADME性质的模型性能。
表1 本研究中使用的体外ADME数据集综述
表2 公开ADME数据集统计情况
3.2 分子表征
为了捕获全局和局部的化学信息,所有分子都由2D拓扑描述符、2D分子指纹和基于分子图学习的表征的组合来表征。作者将1024维的功能连接指纹FCFP4位与RDKit包中的316维的2D描述符拼接起来,以作为基于支持向量机、随机森林、XGBoost、LightGBM和全连接神经网络模型的输入。对于消息传递神经网络,作者使用带有或不带有2D RDKit描述符的分子图作为分子表征。
3.3 机器学习方法
在本研究中,作者对用于分子性质定量预测的各种机器学习和深度学习算法进行了全面比较,包括随机森林、XGBoost、LightGBM、支持向量机、全连接神经网络和消息传递神经网络。这些模型的性能已在包含20个月的6个ADME性质的120个Biogen体外数据集上进行了全面的评估。
4 结果
4.1 用于6个ADME属性预测的机器学习模型的总体性能
作者首先评估了20个时间点数据上6个ADME性质不同机器学习算法的性能,如图1所示。尽管基线随机森林模型显示出强大的预测能力,所有性质的平均Pearson’r约为0.7,但总体而言,其他算法的表现优于随机森林模型。深度学习模型MPNN和FCNN,以及LightGBM和SVM算法,在回归任务得到了最好的预测。
4.2 再训练对模型性能的影响
在药物研究环境中开发预测性ADME模型的一个主要优势是随着时间的推移,项目数据不断涌入,这允许在新数据可用时进行固定的更新。那么,问题是,在前瞻性测试以预测项目的化合物性质时,这些自动更新应多久应用一次,以保持稳健的性能。先前建立ADME性质的QSAR模型的工作表明,与随机分割选择相比,基于时间分割的训练集和测试集可以更好、更真实地评估模型性能。理想情况下,模型可以每天连夜重建,以确保模型中包含的所有实验信息在做出预测时都是最新的。然而,该方法可能不是信息量最大的方法,因为它大大减少了可用于前瞻性评估模型随时间和跨项目性能的可用数据量。为了研究再训练对模型性能的影响,作者使用了120个前瞻性数据集,这些数据集跨越了表1中描述的六个ADME性质的20个时间分割。作者将再训练频率设置为1个月、2个月、4个月、5个月和10个月,并应用前瞻性测试集的平均Pearson’r值来报告一段时间内的模型性能(图4)。
4.3 分子表征对模型性能的影响
为了改进经典机器学习和深度学习模型对分子化学和结构特征的表征,作者考虑了分子描述符和分子指纹的不同组合。作者测试了结合局部和全局化学信息的混合分子表征是否也有利于其他机器学习算法。作者使用来自前瞻性数据集的20个时间分割数据集,评估了三种代表性机器学习算法(RF、LightGBM和FCNN)在两个关键的体外ADME性质HLM和MDR1-MDCK ER上的扩增分子表征的效果(表1)。为了建立机器学习模型,用FCFP4指纹、RDKit描述符或两种分子表征的混合组合对分子进行表征。20个时间分割数据集的Pearson’r分布用于评估模型性能。与基于图的MPNN模型获得的结果类似,在所有三种研究的机器学习算法中,与单独的FCFP4或RDKit表征相比,将FCFP4和RDKit组合在一起的混合表征始终能产生更好的性能(图5)。此外,可以看到,RDKit 2D分子描述符在ADME性质预测和机器学习算法中的表现优于标准FCFP4指纹表征。
4.4 适用领域分析
定义任何预测模型的适用范围对于理解模型的泛化性和估计误差的来源至关重要。在这里,作者在训练集中应用了测试化合物与其5个最近邻居之间的平均相似性,以量化其与模型适用范围的距离,并进一步了解与预测不确定性的潜在联系。更具体地说,使用基于大小为1024维的FCFP4分子指纹的Sorensen–Dice系数来测量任何两个样本之间的结构相似性。所得到的相似性得分以0.1个单位的间隔进行合并。预测误差由每个单独的测试化合物的实验值和预测值之间的绝对差表示。图6展示了使用三种代表性机器学习算法(RF、LightGBM和MPNN2)确定的HLM和MDR1-MDCK ER前瞻性数据集中所有化合物的预测误差和分组平均结构相似性之间的相关性。
4.5 具有ADME性质更改的代表性匹配分子对规则
为了了解不同的官能团如何影响体外ADME性质,作者应用开源软件包mmpdb利用所有ADME数据生成匹配分子对(Matched Molecular Pairs, MMP)知识库工具。从>25000个化合物中提取了总计>12M个规则,其中每个规则与至少一个ADME性质相关。图8列出了一组反映常见药物化学变换的MMP规则,用于优化三个关键的体外ADME性质(HLM、MDR1-MDCK ER、溶解度)。图8中的条目可以大致分为五组,突出了常见的药物化学优化策略。第一组包含小的官能团变化(变换1-7)。第二组(变换8-11)涉及简单烷基的环化。第三组(变换12-21)包括脂族环状和双环的变换。第四组(变换22-33)显示了使用杂环置换的常见先导化合物优化变化。第五组包含(变换34-38)由具有稠杂环的普通铰链-粘合剂替代物组成。
5 讨论
由于可用的化学空间很大,这种多参数优化最初是通过使用传统的化学信息学工作流或更新的机器学习/人工智能生成模型,再加上最大化特定期望性质的强化学习策略来进行虚拟建模的。因此,计算预测模型的准确性变得越来越重要,因为它们被应用于从非常大的可访问或虚拟复合空间集合中优先选择分子。
在这里,作者研究了现代机器学习算法和分子表征在体外ADME性质建模中的使用和性能,ADME性质是化合物优化的组成部分。本文结果证实了先前的研究结论,即深度神经网络能够在单任务模型中优于随机森林等传统方法。然而,当被最先进的机器学习算法(如梯度提升机或支持向量机)相比时,性能上的差异并不显著。此外,作者还发现,与算法的选择相比,模型再训练和分子表征发挥了更大的作用。事实上,更频繁的再训练(1个月vs 5或10个月)和混合分子表征(RDKit+FCFP4或MPNN+RDKit)通常提供更好的整体性能。作者在公共存储库中发布了一个专有数据集,提高了公共领域ADME数据的质量和多样性。
联系客服