今天介绍的文章是德国波恩大学波恩-亚琛国际信息技术中心（B-IT）的Bajorath实验室去年在JMC特刊（Artificial Intelligence in Drug Discovery）上发表的“Interpretation of Compound Activity Predictions from Complex Machine Learning Models Using Local Approximations and Shapley Values”。文章利用可解释学习方法SHAP（SHapley Additive exPlanation）对基于复杂机器学习模型的分子活性预测模型进行解释，尝试打开“黑箱”。

——背景——

众所周知，机器学习模型在药物研究中取得了许多优秀的成果，其中包括分子性质预测、从头药物设计、分子合成分析等多个方面。但是，机器学习模型的难以解释的特性一直为人们所诟病，尤其是预测精度高的模型往往复杂度更高和规模更大，解释性（Interpretability）更差。而对于QSAR模型，其中分子结构与活性的关系比起普通的图像识别任务中标签和图片关系更难以理解，这增加了解释模型的难度。这些复杂的机器学习模型的解释有着重要的意义，可以提高模型与真实实验符合程度从而提升模型性能，以及辅助分子作用机理的探索等。目前，模型解释的方法可以分为模型依赖（Model-specific）方法和模型不可知（Model-agnostic）方法。二者主要的区别在于是否限定使用模型的种类。前者主要指的是利用简单的可解释模型（例如线性回归等）来进行学习，从而可以直接对模型进行解释，但是这种方法常常会限制了模型的预测效果。后者不依赖于所使用的模型的限制，通过敏感性分析等方法对模型进行解释，更具通用性。SHAP是目前比较流行的一种模型不可知的解释方法，也正是文章所使用的方法。

——方法——

SHAP主要是针对单独样本利用线性模型对复杂的机器学习模型进行局部逼近，具体如图1所示。图1为需要解释的模型f的决策空间，红色和蓝色分别指的是正样本和负样本空间。红色的最大的点为需要解释的样本x，图中圆点是采样得到的数据，越大代表与x越接近，相似度由π度量。利用这些数据可以通过构造优化目标（等式1）得出简单的线性模型g(图中的灰线), 从而在局部对于样本x进行解释。Shapley值来源于博弈论，用来公平分配项目中的每个对象的合作收益，其中等式1使用SHAP核（SHAP kernel）来构造π。g是线性模型，因此g可以写为等式2，M为特征的总个数，Φ是每类特征的重要性系数，为每个特征的Shapley值。

图1 SHAP具体解释示意图

——结果——

作者首先在ChEMBL中挑选的可信度比较高的10个活性预测任务的分子数据集，构建机器学习模型。其中使用了三种机器学习方法，分别是支持向量机（SVM）、随机森林（RF）、深度神经网络（DNN），以及两种分子表征，分别是ECFP4和MACCS，具体效果见表1。其中三个模型在AUC、MCC、BA上都取得比较高的精度，从而确保模型的是可靠的。

表1. 文中使用的机器学习模型的性能统计

随后，作者利用SHAP对模型进行解释，即计算每个特征的重要性。通过特征重要性分布（图2 上）和特征移除测试（图2下）可以看出目前使用的ECFP4对活性预测任务来说存在冗余，起作用的只是部分特征。

图2 输入特征中SHAP值（≠0）的分布（上）特征移除测试（下）

为了证明SHAP计算的特征的重要性的合理性和一致性，作者比较了SHAP值和随机森林模型中的基尼系数（Gini importance），可以发现二者具有一致的正相关关系（图3上）。此外，作者还比较了不同的模型计算的SHAP值，同样具有一致性（图3下）。

图3 SHAP值与基尼系数的比较（上）不同模型对于特征得到的SHAP值比较（下）

最后作者利用SHAP对具体的模型分子进行可视化和分析的案例演示。SHAP可以通过可视化分子重要特征来对模型的预测进行合理化和改进，见图4。图中是SVM对组胺H3受体拮抗剂的预测，其中两个分子结构十分相似，但是预测结果相差很大，通过可视化可以发现预测错误主要是因为其中一个分子的特征负贡献非常大。

图4 基于SHAP算出的SVM模型在任务中，对于分类的正负两类最重要的特征（上）。利用SHAP算出两个分子具体的特征重要性分布，红色为正向贡献，蓝色为负向贡献（下）。

此外，SHAP还可以对模型进行诊断，如图5，在SVM决策中，对于该分子是否具有活性两种类别进行判定的重要特征有较大的重叠，产生了歧义，因此模型效果不如DNN。

图5 SHAP对于分子的具体特征分析和可视化。

——小结——

SHAP方法作为特征重要性分配的解释性方法，可以比较好地搜寻重要特征，这为结合经验知识以及实验提供了基础。此外，SHAP可以对单个分子进行分析，这对于理解模型的决策、及改善和合理化模型结果有一定的帮助。但是SHAP主要依赖于输入的特征，因此分子的合理表征仍是需要解决的问题。因此，也有人发展了基于序列模型的解释方法，来避免分子的表征。总的来说，目前的模型解释方法距离与真实实验结合辅助药物分子设计仍有一定的距离，因此可解释性学习方法仍是我们需要努力探索的方向。

参考文献：

Rodríguez-Pérez, Raquel, and Jürgen Bajorath. "Interpretation of compound activity predictions from complex machine learning models using local approximations and shapley values." J. Med. Chem. 2020, 63, 16, 8761–8777

DOI: 10.1021/acs.jmedchem.9b01101

Jiménez-Luna, José, Francesca Grisoni, and Gisbert Schneider. "Drug discovery with explainable artificial intelligence." Nat. Mach. Intell. 2020, 2, 10, 573-584.

DOI: 10.1038/s42256-020-00236-4

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。