JMC｜化学设计自动化的不同等级和相关案例

2022年5月5日，Relay Therapeutics的Patrick Riley等人在JMC上发表综述，结合案例介绍了当前化学设计自动化的等级框架，以及不同等级的优缺点和面临的挑战，并分析最自动化的水平上，人与机器之间合作的关键点。

摘要

计算方法在药物发现中的一个应用领域是小分子的自动化设计。虽然有大量回顾性和前瞻性研究文章对小分子自动化设计进行了方法和应用描述，但对于区分这些不同系统的术语和关键性质却缺乏共识。

我们引入化学设计自动化 (Automated Chemical Design, ACD) 等级，来清晰地定义从构思到决策的自主设计水平。为了充分说明这个框架，我们提供了来自文献的案例，并将一些值得关注的方法和应用放入了各个等级中。ACD框架提供了一种描述自动化小分子设计系统的通用语言，使药物化学家能够更好地理解和评价此类系统。

ACD框架中从0到5的等级比较

引言

目前，药物研发中的AI方法受到了广泛关注。一些团队已经将这些方法组装成完整的系统，可以选择或设计具有不同程度的机器智能和自主性的分子。尽管人们对此兴趣浓厚，但在如何描述这种计算药物发现系统方面几乎没有达成共识，因此很难清楚地了解和检验相关的异同。

本文提出了描述药物发现中计算方法的一个系统的定义：小分子的自动化设计，我们将其称之为化学设计自动化。我们关注的是小分子。

我们假设化学设计的过程必须通过逐步改进分子的某些性质来迭代完成。在描述自动化化学设计系统分类的框架之前，重要的是要考虑这种自动化可以增加什么价值。自动化设计可以潜在地减少迭代循环时间，需要更少的化合物和迭代来产生候选，并扩展到更多的项目。

需要说明的是，本文的化学设计自动化框架重点强调化合物设计的部分，有意地不涉及化合物合成或测试的自动化。

更进一步，本研究强调了自动化的一个未被讨论过的优点。成为专业药物化学家的过程，需要多年学习各种经验 (关于决策如何产生影响)。由于化学家不能简单地忘记所学的一切，然后以不同的策略从头再来，所以很难或不可能进行一个绝对纯净的对比实验来比较不同的化学探索策略。然而，机器完全有能力被复位到相同的初始状态。这意味着，一旦一个系统足够自动化，就可以进行纯净、有意义、相对容易地解释关于设计和决策过程的实验。

自动化实验还有助于将精力集中在产生最有意义的改进的过程的部分。例如，机器学习研究者通常会以相对抽象和简约的目标来构建新的生成模型，或更好的性质预测模型，例如提高基准数据集上的性能。如果这些研究方案是在一个完整更广泛的“设计-合成-测试”系统背景下进行的，那么就更容易评估建模改进的真实价值。这种实验和获得精确反馈的能力将转化为系统本身的持续性改进。

系统无法在一个项目上取得进展的原因，可以在细节层面上被检查和理解，这对于自动化程度较低的系统几乎是不可能的。这自然意味着，愿意投资于这些实验的组织将拥有推动持续改进的有力工具。

图1. 对于设计自动化的两个维度和命名ACD层次定义的图形概览。x轴代表最终决策权所在，y轴代表分子设计理念的来源

我们将与ACD有关的自动化在两个维度上分六个层次，如图1所示。轴线代表了定义自动化设计的两个截然不同的维度。尽管其他研究者围绕自动化水平讨论了关键问题，但本研究的ACD框架更完整，层次间的区分有更好的界定。我们首先精确地定义轴和等级，并从文献中用已发表的系统说明不同的等级。本文着重举出最引人注目的例子，说明每个等级的技术成就和挑战。

本文的描述将注意区分何时使用表1中的定义的完整和部分的系统。然后，我们将讨论转向更有效和更自动化的设计系统所面临的挑战，并分析最自动化的水平上，人与机器之间的合作的关键点。

表1. 对文献中和ACD框架相关词语的定义

ACD等级0

说明

在ACD 等级0体系中，分子由化学家直接地设计和选择。这种方法已经有效应用了100多年，仍然是工业和学术药物研发中普遍存在的模式，如图1中x轴所示，下一步要做什么分子的决策完全掌握在化学家手中 (Chemist decides)。化学家可能参考机器计算或预测的性质，以使决策更好或更有效率，但最终的决策权留给化学家。

良好的分子特性预测是设计的有力工具。这些预测模型可以采取多种形式，人们可以使用过滤规则来指定应该选择或忽略的分子类型。例如，Lipinski的Ro5法则被用来识位于“类药”空间内的分子。PAINS过滤器已被用于识别可能干扰某些分析和产生误导结果的分子。

大量的附加计算技术也可以应用于优先级排序任务。分子可以根据分子相似性、分子形状、与蛋白质结合位点互补或其他因素计算的结果进行打分。在过去的十年里，机器学习模型已经成为计算和药物化学家必不可少的辅助手段。

当预测一个分子的性质或生物活性时，机器学习模型识别出可以与被预测值相关的分子特征的模式。这些值通常被称为标签，可以归类为如“可溶”或“不可溶”或“具体的值”。在早期的机器学习工作中，分子通常由分子指纹向量表示，向量中的每个位置对应于特定化学子结构的存在或缺失。最近，有几个小组开发了利用神经网络学习一种分子表征的方法。

这些学习到的表征大致可以分为两类：字符串表征和图形表征。字符串表征从语言翻译工作中得到启发，基于SMILES等分子的字符串编码产生分子表征。在基于图的机器学习中，一个分子被表征为具有原子对应的节点和键对应的边的图。在节点和边之间传递信息和生成分子的最终矢量表征方面，大量的方法正在被持续开发出来。

这些预测模型可以帮助化学家在ACD等级0做出决策，但随着系统走向更高的自主性，它们变得尤其关键。

如图1的y轴所示，在ACD等级0时，分子的设计理念来源于化学家的配方 ("Chemist defines recipe")。"recipe" (配方) 的含义将在ACD等级1中得到更充分的涵盖，但简而言之，化学家精确地定义了所有需要考虑的分子。最简单、也许最常见的方法是化学家勾画一组特定的分子，对于稍微复杂的过程，化学家可以列举一组分子。

为了保持一个纯净、可理解的定义，我们把化学家拥有最终发言权的所有系统都放在了这个决策自主性的最低程度上 (ACD等级0)。

案例

Gomez-Bombarelli等人在2016年的一篇论文中描述了一个高效的ACD等级0系统的例子。这篇文章介绍了一种用于有机发光二极管 (OLED) 材料设计的协同系统。它们通过库枚举过程产生的160万个分子的集合开始，然后利用机器学习模型对这些分子进行优先排序，并对模型得分最好的分子进行量子化学计算。在计算步骤之后，一个化学家小组使用一个门户网站，根据人类对计算值、新颖性和可合成性的评估来选择分子。然后，采用协商一致的方法来选择将在随后一轮选择中处理的分子。经过本设计过程的几次循环，获得了一批用于OLED的新材料。虽然这个系统包含了多个自动化过程，但初始库的设计，以及每次迭代时分子的选择，都是由人类化学家驱动的。

ACD等级1

说明

ACD 等级 1系统将以图1中y轴为代表的概念自动化规模提升到"机器生产"的概念。

我们根据配方 (recipe) 以人为中心还是以机器为中心的设计进行了一个初级区分。在ACD第0级，“化学家定义的配方”是指化学家精确地指定如何从现有的化学物质中构造分子，以及哪些分子成分是可用的。我们考虑这种自治程度来使用固定的、列举的组分列表，如一组从供应商提供的可用的结构单元。随着组分列表长度的增长，化学家可能不会对这个列表的每一个成员进行审查，因此可能会对机器生成的一些分子感到惊讶。然而，这个等级创意和设计理念完全来自化学家。为了清楚起见，我们考虑任何完全列举的清单，其中化学家已经将每个分子单独设计成一个非常简单的配方形式。

化学家定义配方的另一个关键问题是化学家负责确保分子的可合成性。虽然没有人或机器能够很好地预测给定的合成是否成功，但我们预计，对于一个熟练的化学家来说，设计的分子通常是可以生产成功的合成方法的。

过渡到ACD等级1意味着机器不再是简单的机械式过程。原来的机械式过程中，当从生成过程中得到一个输出时，这个分子是如何从这些方向产生是可明确的。而ACD等级1生产的分子，特定输出分子的过程和原因将不再明显。虽然在这之间有一些灰色区域，但我们所看到的大多数构思过程都明显地落到了一边或另一边。这种转变的特点是产生的分子能够让化学家感到惊喜，不仅仅是因为化学家没有审查整个可能的组分清单。

我们注意到，在ACD等级1系统的范围内，化学家可能会提供可变数量的指导或约束。典型的约束生成将允许机器只修改固定核心的一个向量。这些约束在很大程度上可以为化学家提供自然的方法来指导机器预测结果，就像一个药物化学团队可能决定关注一个分子的某一方面一样。生成约束较小的分子是一个技术挑战，同时也可能使决策过程更加困难。

尽管机器生成概念分子，但在ACD等级1，最终要合成的分子的选择是由人化学家完成的。化学家的一项关键工作是决定机器的哪一种概念分子是可合成的。更好的机器算法将产生更高的可合成分子的速率，但化学家的这种评估从根本上与适应度的评估挂钩。

案例

近五年来，我们看到了de novo设计方法发展的复兴。图像分析、语言翻译、强化学习等领域的进展已运用于分子生成。这些方法已经与预测模型相耦合，很可能成为ACD方法的关键组成部分。尽管最近出版了数十种或许上百种关于化学生成模型的文章，但分子的合成和测试还是缺乏前瞻性研究。

我们知道最早使用这些生成模型的工作是Gomez-Bombarelli提出的一个潜在的ACD等级1系统。这一研究利用一种称为自编码器的神经网络，将分子编码成一个称为潜空间的连续向量表征。在这个潜在空间中的点随后可以被解码生成新的分子表征为分子图或文本串。通过在潜在空间中某个分子的表征附近选择潜在空间坐标，可以生成类似分子的表征。潜空间的遍历可以与预测模型耦合，生成模型预测的分子结构最优。虽然Gomez-Bombarelli的论文证明了潜在空间遍历的能力来优化计算函数的得分，但由于缺乏实验测试，因此被归为潜在的ACD等级1系统。

Merk等人在2018年的一篇论文中描述了一个完整的ACD等级1系统。作者使用一种称为递归神经网络的神经网络。当应用于文本时，RNN首先分析大量的文档集，并收集倾向于跟随其他单词的单词分布。给定这些分布，除其他外，一个RNN可以建议'吃午餐’这个短语会跟随'你愿意见面’这个短语。以类似的方式，作者使用一个RNN对一组以简化分子输入线输入系统 ( SMILES) 字符串表示的分子进行分析，识别出一组倾向于共同出现的字符，代表原子。他们从ChEMBL数据库中训练出一套超过50万个生物活性分子。随后，RNN被调谐到一组任务特异性的25个脂肪酸模拟物上，这些分子被报道具有对RXR和PPAR的活性，然后用一组计算模型对RNN生成的1000个结构进行排序，通过目测筛选出49个分子来评估可合成性和新颖性，最终选出5个化合物。在随后的报告基因检测中，5个化合物中有4个显示了对至少一个RXR或PPAR亚型的激动剂活性。

Popova等发表了具有类似技术途径的潜在ACD等级1系统，作者在生成过程中增加了额外的强化学习 (RL) 步骤。这项研究中，分子的生成被认为是在SMILES字符串中添加字符的一系列动作，RL步骤通过单独训练的预测高的模型来生成SMILES字符串。

ACD等级2

说明

向ACD等级2的移动，是自动化轴“机器决定，单次迭代” (Machine decides, single iteration) 的上移，而人类仍然决定着在思维轴“化学家定义配方” (Chemist definesrecipe) 上探索的化学空间。机器对下一步要做哪些分子做出最终决定，只运行一次，没有多次反馈循环的机会。这对于命中查找系统或围绕已知命中进行单轮扩展是常见的。

通常情况下，许多分子会被识别并进行平行测试。向ACD等级2系统的过渡代表着这个系统与计算在药物发现中的典型作用的巨大背离，那就是从人为驱动的选择到计算机驱动的选择。

在ACD等级1系统中，许多隐含的假设和偏差在ACD等级2系统中变得显而易见，需要更系统的定义搜索空间和目标以匹配ACD等级0或1的性能。例如，在ACD等级1系统中，化学家驱动的选择可以暗自考虑多个性质以及它们之间的权衡，例如亲和力和logP的平衡。ACD等级2系统中，这些目标必须被明确定义，并有相关的模型来预测和合并它们。在较低层次的系统中，化学家依靠机器来固定不好的选择，我们不禁想知道来自系统的结果是可以归功于机器，还是可以归功于熟练的化学家。转换到到ACD等级2决策自治程度，就可以理解机器的决策价值。

ACD等级2系统通常需要考虑多个期望性质，通常称为多参数优化 (MPO) ，将多个评分集成到决策过程中。这种MPO评分可以是不同评分的简单加权和，也可以使用更复杂的函数形式来调整特定参数的权重。需要重申的是，虽然ACD等级2要求决策自动化，但合成和分析的执行不必自动化。此外，一些设计的分子可能合成失败，即使人类试图评估合成可能性，但是他们也只考虑了可合成性，而不是从全局出发，考虑某个分子对总体目标的价值。

案例

一个ACD等级2系统的典型例子是最近Sadybekov等关于千兆级虚拟对接的研究。作者设计了一个计算机程序，可以在Enamine REAL空间中搜索到大约110亿个来自129个反应的分子。该算法利用分子库的组合性质，只检查输入空间的一小部分，并识别得分较高的分子。对排名靠前的分子进行聚类，并应用标准化学信息学滤波对化合物进行鉴定，用于合成。该方案在大麻素受体和激酶ROCK1两个蛋白质系统上进行了前瞻性测试，成功发现了纳摩尔级别的hit化合物。这是一个典型的ACD等级2体系的例子，因为化学搜索空间是由反应方案和试剂精确定义的，而最终合成的化合物是由算法选择的。

Stokes等人用实验数据对2335个分子训练了一个机器学习模型来预测大肠杆菌的生长抑制，并利用它筛选出6111个分子。对前99个独特的分子进行了实验测试，51个分子表现出抗菌活性，对应的后63个预测仅仅发现了2个活性化合物。这些新的实验数据被添加到之前的数据中，训练出一个新的模型，用于筛选无锡抗结核分子库 (WuXi antituberculosis library)，然而，所测试的300个分子 (200个高分和100个低分) 都没有显示出抗菌活性。

利用积累的数据训练第三个模型，用于筛选商业可用分子ZINC15数据库的子集。从一组1.07亿个分子中，得到了23个预测分数高且与已知抗生素相似度低的分子，其中8个分子对三个测试中至少一个表现出生长抑制作用。该研究是ACD等级2系统的一个很好的例子，因为它们都使用一个定义的化学空间，并且只依赖于算法预测或测量来进行化合物的选择。

Konze等人利用自由能扰动 (FEP) 模拟构建了一个基于合成路线 (PathFinder) 枚举约束的潜在ACD等级2系统。该过程的第一步使用基于模板的逆向合成，以确定已知起始化合物的潜在合成路线。

在选择较优化成路径后，通过基于反应的枚举生成候选分子，并将所选路径应用于一组结构单元。然后根据性质标准和对接对枚举库进行筛选，以将候选集缩小到适合于更昂贵的FEP计算的大小。由于库容量仍然可能太大，无法通过完整的FEP模拟来运行每一个分子，因此作者采用短的FEP模拟来训练一个用于预测亲和力的机器学习模型：初始训练集选择一个随机的分子集合，并利用该模型选择下一批化合物进行评价；该模型重复4次，然后利用该模型选择化合物进行全FEP模拟。该系统通过将化合物的生成限制在单一的合成路线来应对可合成性的挑战。它是一个潜在的ACD等级2体系，因为对所选化合物的评价是纯计算的而不是实验的。

McCloskey等人描述了接近ACD等级2的系统。作者利用DNA编码库 (DEL) 选择的实验数据训练机器学习模型来预测蛋白质结合。然后，这些模型被用来搜索两个枚举的分子集：一个是MCule供应商提供的目录和基于结构单元的化学的内部数据库。对筛选出的打分排名靠前的化合物进一步用球排除聚类和'自动化或自动化过滤器’修饰，包括有限的化学家对反应性和试剂干扰的检查。

将该体系应用于sEH、ERα和c-KIT蛋白质系统，成功地鉴定了3个系统的强效分子 (IC50<10 nM)。这一系统有ACD等级2系统的许多组成部分，但由于对所选化合物的化学家审查有限，本系统被归类为接近ACD等级2。

Lyu等人进行了直接比较其ACD等级1和ACD等级2系统的实验。两个实验都是从将1.7亿个分子对接到AmpCβ-内酰胺酶和D4多巴胺受体作为研究的开始，然后再发散成'人’和'机器’的工作流程。在"人"的方法中，对1000个得分最高的分子进行目测，选取124个进行合成和筛选。在'机器’的方法中，前114位分子是纯粹根据对接得分来选择的。两个筛选的命中率在大约24 %时相似，但'人’的方法识别出了更强效的分子。随着自动化化学设计领域的进展，有必要对ACD等级2和更低级系统进行更多的客观比较。

ACD等级3

说明

ACD等级3系统主要通过搜索空间的定义来区分。在ACD等级2体系中，化学空间由一个配方明确定义，机器从那一组分子中独家选择化合物。在ACD等级3系统中，这种约束被放宽，以允许对探索化学空间的限制较少的分子生成采用自动化的非重复方法。

注意和ACD等级2一样，一个ACD等级3系统仍然需要机器驱动的选择；一个依赖于人类选择的机器产生分子的系统将被归类为ACD等级1。迈向ACD等级3系统的关键技术挑战是评估机器产生的候选分子的合成可行性。

在较低级别的系统中，确定可以合成什么分子的责任落在人类定义化学空间或选择可合成的化合物上的能力上，但在ACD等级3系统中，需要机器生成化学空间并在没有人为干预的情况下优先排序化合物，这一等级的机器应该生产大多数可合成的化合物。

案例

Morris等人描述了一个ACD等级3系统，该系统将性质建模和合成路线预测结合起来，在没有任何人为干预的情况下识别对SARSCoV-2有活性的化合物。化学空间由“化学上合理的微扰”和分子片段来定义，生成用于重组的结构单元；最终的空间包含近9百万的分子。通过性能预测模型对分子进行排序，并将得分最高的化合物输入到合成规划模型中，对可能的合成路线包含≤3步的化合物进行优先排序，选择前5个分子进行实验测试 (其中一个合成难度大)；这五个分子中的一个在活病毒细胞检测中显示出微摩尔生化活性和活性。合成可行性的算法估计在化合物选择中起着至关重要的作用，突出了其对实际应用的重要性。

2019年Zhavoronkov等人的一篇论文扩展了Gomez-Bombarelli的工作，展示了潜在空间探索在DDR1抑制剂设计中的应用，DDR1是一种与纤维化相关的酪氨酸激酶。在本工作中，作者定义了一个基于已知分子的潜空间，包括DDR1抑制剂，生成了30000个结构，然后使用各种计算模型和过滤器对其进行了优先排序。这一优先选择过程产生了40个分子，随后由人类化学家审查，以评估可合成性。由于人类的审查仅限于可合成性，这个系统仍然被限定为ACD等级3。在筛选的40个分子中，有6个被合成并进行体外DDR1活性测定。随后的药代动力学实验也表明，一个分子在小鼠模型中显示了可接受的生物利用度。

最近来自诺华制药的一篇论文描述了利用生成模型来识别抗疟化合物。利用21065个化合物结合实验数据对模型进行训练，3个化合物作为生成模型的种子，生成282个候选分子。每个分子用活性预测模型打分，选择前4位分子进行合成。在这四种化合物中，只有两种化合物被制成，并且这两种化合物都抗疟活性都在两位数的纳摩尔级别。这一研究目前尚不清楚如何确定要选择的最高评分化合物的数量；在ACD等级3系统中，要么是预定的，要么是算法决定的。

Besnard等人迭代优化了D4多巴胺受体逆激动剂多奈哌齐的结构，以对抗D2受体和血脑屏障的渗透。化学空间是通过从每一轮文献中挖掘出的变换进行反复的枚举来定义的，这些变换考虑了新颖性、Ro5规则性质和合成可及性，以减少下一轮的化合物数量，最后产生成千上万个候选结构。在第一个实验中，作者根据预测的多药理学特征，选择了8个化合物进行合成，均显示D2亲和力在156nM到1.7 μM之间。随后的实验侧重于降低对肾上腺素能受体的活性，提高D4的亲和力和选择性，确定了训练数据中没有的高选择性苯并内酰胺系列。此外，作者还鉴定了一个2位数到1位数的微摩尔范围内具有D4亲和力的吗啉化学类型。由于对机器驱动化学空间的探索，该系统接近ACD等级3，但所述系统属于ACD等级1，因为最终化合物是人类出于可合成性以外的原因选择的。此外，使用合成的可及性评分可能不足以产生一般可合成的分子，这是ACD等级3系统的特征。

Bos等人描述了一个ACD等级1系统，该系统接近于ACD等级3，它结合匹配分子对变换、基于反应的枚举、递归修剪和R-group修饰来创建大的候选分子库 (>1亿) 来识别DAO抑制剂。每个分子库都用性质和复杂性过滤器来减少，不适合用对接或FEP进行结构评估的化合物被丢弃。采用CNS MPO评分、预测亲和力和亲脂性配体效率 (LLE) 指标进行排序，发现部分化合物具有<1 μM的实验活性。该体系接近ACD等级3，因为最终化合物由化学家优先排序。

ACD等级4

说明

一个ACD等级4在决策轴上移动到最高程度 (机器决定，多次迭代)。多轮决策明确地迫使机器考虑开发-探索的权衡，而不是仅仅关注下一个最佳分子。这些迭代是指在真实世界中进行合成和测试 (而不仅仅是通过化学空间进行的循环计算搜索)，在决策过程中不需要人为干预。如果人类化学家在每一轮都要介入，重新定义分子的问题或空间，我们认为这是一个重复应用的单迭代自治系统，而不是真正的多迭代自动化。

这个级别的系统通常使用一类称为主动学习的机器学习方法。相对于标准学习方法 (如图 2所示) ，即先训练模型，然后直接利用模型寻找有效化合物，在多轮训练中细化主动学习模型。然后对选定的分子进行分析，并结合用于重新训练模型的原始数据集，为下一轮选择做准备。

图2 .标准机器学习和主动机器学习区别的图形表示

主动学习系统由两个主要组成部分组成：一个预测分数及其相关不确定性的评价函数，以及一个利用这些值选择下一组分子的获取函数或选择策略。在机器学习领域中，主动学习的主要目标是快速提炼底层模型的预测力。然而，在药物设计领域中，主动学习的目标是双重的：既要快速识别最优化合物 ('探索’)，又要细化模型，从而消除底层结构活性范围 ('开发’)。

主动学习方法的主要差异与习得函数以及如何利用不确定性估计有关。流行的方法包括上置信度、预期改进和Thompson抽样。药物发现项目通常选择一批化合物进行合成和测试，因为在这一过程中存在较长的延迟。大多数主动学习算法都是为了选择单一的化合物而设计的，有效的策略来优化选择一批化合物是一个持续的研究挑战。

案例

我们知道最早的ACD等级4系统是由Weber等人开发的。他们描述了利用遗传算法从16万个可能的Ugi反应产物池中反复挑选凝血酶抑制剂。从初始的20个随机选择的化合物集合开始后，后续的轮次选择每批20个化合物进行合成和测试，从全文库中选出的前20个化合物作为亲本进行下一轮的选择。作者进行了20轮 (共400个化合物) 的实验，并鉴定了亚微摩尔级别的凝血酶抑制剂 (初始随机集在数百微摩尔范围内)。其中至少有两个化合物具有先前已知的抑制剂的结构特征，强调了人类化学家在定义化学空间方面的作用。

另一个ACD Level 4系统的例子是该团队在Cyclo fluidic上搭建的。2013年，他们发表了一篇报告，详细介绍了利用闭环流动化学系统发现的BCR-Abl抑制剂，该系统将化合物的优先次序放在多轮主动学习上。化学空间由三个模板来定义，这三个模板是根据它们的铰链结合能力和占据目标分子的DFG-out构象来选择的。每个模板包含两个向量；R1选用4个取代基，R2选用27个取代基，通过结构评估其可能与靶点的相互作用。共有270个化合物可用于合成，然后进行内联分析，循环时间为1~2 h。根据预测的亲和力和反应物频率，采用探索和开发策略的机器学习模型筛选化合物。第一个实验进行了29轮探索，确定了几个抑制剂 (用于化合物筛选的Abl1模型在每轮之后更新)，包括一个60nM的Abl1抑制剂。第二个试验以提高亲和力为重点，进行了20轮。第三个试验在勘探和开采之间交替进行，共进行41轮。总体而言，90轮筛选得到64个成功合成/检测化合物，并鉴定了Abl1和Abl2的纳摩尔级别的抑制剂。虽然该系统满足ACD等级4标准，但所探索的化学空间的有限规模突出，这表明达到一定的自动化水平并不能保证相对于较低级系统存在明显优势。

Williams等人描述的“机器人科学家”夏娃是ACD等级4系统的另一个例子。作者建立了测试抑制DHFR的实验方法，并收集了含有约1.4万个化合物的库的单一浓度数据。该数据的子集被选择为QSAR模型的训练集，然后用于选择一批96个化合物进行剂量反应分析。在随后的几轮挑选中 (共计三轮) ，将新获得的数据添加到训练集中，并重新训练模型。作者还利用原始单点数据进行了计算模拟，研究了系统在多轮选择中的行为。本文没有描述如何选择训练集，这很可能对主动学习的成功和不同复合选择策略的明显有效性产生深远的影响。

随着人们对自动化分子设计的兴趣日益浓厚，人们很容易忽视这一领域的历史研究。然而，自动化分子设计在医药行业已经有50多年的活跃研究。20世纪70年代初，Darvas描述了一种基于单纯形优化方法耦合二维描述子空间的潜在ACD等级4设计系统。从已知活性的三个化合物出发，在描述符和活性空间中构造一个单纯形，并计算生物活性的增加方向。从沿此方向的源池中选出一个新化合物。得到了所选化合物的活性，并利用新得到的数据点重复了过程。与随机选择相比，本文证明了该方法识别最优化合物的统计优越性。虽然这是一个小的研究，以现代标准，它体现了基本的分子组成部分。

另一个潜在的ACD等级4体系是Bradley等人提出的基于信息论的迭代设计策略，用于CDK2配体的先导识别和优化。为了模拟一个典型的发现程序，本研究使用了两种不同的分子池：用于初始模型构建的早期池和用于复合优化的晚期池。早期分子池由13359个不同的化学结构组成，含有207个活性成分，晚期池约含有4500个化合物，161个活性成分分布在22个不同的骨架上。利用前期池，利用大约400万个3D药效团定义了一个初始的二元分子描述符空间。随后，每个分子被编码成一个二进制向量，表示在其任何分子构象中存在或不存在特定的药效团。随后，通过在早期筛选池中只保留那些被分子填充到足够程度的药效团来修剪这个空间。这导致大约180万个药效团被保留下来。利用基于信息论的选择算法，从晚期池中挑选出一组小分子，它们的活性暴露出来，然后通过保留新发现的活性化合物中过量表达的药效团来细化药效团空间。这个过程重复了四次，最终将空间修剪为8.2万个药效团。在最后一步，富集在最终药效团的晚期池中的化合物被预测为“活性”化合物。该程序在晚期池中的14个活性骨架中发现了11个分子，优于其他系统化方法。本研究是一个包含分子迭代设计和算法选择的潜在ACD等级4系统的极好体现。

另一个潜在ACD等级4系统的例子是Warmuth等利用支持向量机 (SVM) 结合主动学习策略进行的回顾性研究。对凝血酶和CDK2两种不同的配体结合系统进行了方法学评价。凝血酶数据集包含大约2000个化合物，其中190个活性分子，CDK2数据集包含17500个化合物和383个活性分子。实验装置的设计类似于一个迭代的药物发现项目，即利用已有的数据构造初始分类器，然后随着更多信息的可用而细化。在本研究中，初始分类器是利用5%的可用数据构造的。该分类器结合一个选择策略来选择新的化合物，并使用新选择的化合物的暴露标签重新训练。正如ACD等级4系统的定义一样，化合物是通过迭代和算法选择的。值得注意的是，在ACD等级4系统中，算法选择策略可以自动调整到项目的阶段。项目前期，一个策略重要的是快速识别活性化学物质；而在项目后期，了解结构活性范围变得重要时，可以采用不同的策略。

一个接近ACD等级4系统的例子是Fujiwara等人使用的方法，他们使用"委员会投票"主动学习策略来探索SAR范围和识别潜在化合物。该研究采用了一种著名的称为“bagging”的方法，创建了一个机器学习模型的集合，每个模型在当前可用数据的唯一随机样本上进行训练。然后，通过识别一组在创建的机器学习模型之间存在最大分歧的分子来选择一批测试分子。这些选定的分子的活性是已知的，过程是循环的。该方法在三个系统上进行了回顾性测试，并且在每个情况下都优于传统的命中选择策略。该方法在生物胺受体上进行了前瞻性试验，利用该算法从大约5万个分子池中筛选出50个化合物。从机器选择的分子中，手工挑选了10个化合物，并对其中4个化合物进行了测定，其抑制活性均大于50%。额外的手动选择步骤意味着这个研究使用的程序只接近ACD等级4，如上所述，此处将该系统归为ACD等级0。

Ahmadi等人对一个潜在的ACD等级4系统进行了进一步的研究。该系统以一种称为高斯过程回归的机器学习算法作为基础算法，而采集函数采用了一种期望的改进方法。该方法在12个数据集上进行了回顾性测试，与基线方法相比，需要更少的迭代次数来识别最有效的化合物。然而，本研究对于指导未来药物发现项目的效用有限；在主动学习更新周期中，本研究每轮只选择一个化合物，这与典型的药物发现工作形成鲜明对比，在每个周期中选择大批化合物进行合成和分析。

ACD等级5和未来的挑战

说明

ACD等级5是决策轴和构思轴上最自主的。我们不知道完整的ACD等级5系统的例子。

我们所知道的最接近潜在的ACD等级5系统是Green等描述了一个在GSK开发的用于内部使用的全自动化平台 (BRADSHAW)，支持分子生成、性质预测、多目标优化和化合物选择。该平台由多个“任务”组成，其中包括MMP (匹配分子对) 变换、相似性过滤或SMARTS等步骤的最佳方式实现，并根据每个性质的线性可取函数分配多目标评分。该系统期望通过包含对已知可取化学物质的开发，和包括针对性质模型不确定的分子探索新的化学空间，从而实现主动学习。此外，该系统还考虑了选择的初始化合物集的数据很少的情况下启动项目的挑战。

未来的挑战

建立真正有效的药物设计ACD等级5系统既是领域的共同目标，也是重大的技术挑战。

一个挑战是进一步改进和评估生成分子想法的算法和模型。虽然生成算法有时被证明能够生成可合成的分子，改善所需的性质，但现有算法的可靠性、完备性和有效性还有待更好地理解和改进。目前，已经推出了若干基准 (GuacaMol和MOSES)，以规范对分子发生器产生的分子的新颖性、多样性和性质的测量，尽管所用的测量指标的质量仍然存在疑问。分子图灵测试是一个很好的例子，如何评估分子发生器是否产生与化学家所选择的分子相似的分子。

另一个重大挑战是，我们还不了解目前针对化学设计特点的优化算法的有效性。化学空间是离散的，被认为是相当"粗糙"的，也就是说邻近的分子可以有很大不同的性质。改进优化算法和/或改进"邻近"分子的概念，使优化问题更加简单，是当前的挑战。例如，当被视为2D分子图时，一些看起来非常不同的分子可能在3D中采用非常相似的静电形状。这种从二维视图到三维视图的变化会导致模型和优化算法的性能截然不同。

特别是随着待探索分子的空间变得更加全球化，机器将不得不努力估计探索化学空间区域的长期价值，而不仅仅是某个特定分子的价值。也就是说，选择一个化学系列胜过另一个，而不仅仅是一个分子胜过另一个。这从根本上说是一个更加困难的估计问题；即使是伟大的药物化学团队也很难估计他们是否会用给定的系列获得成功。尽管绝对的估计，例如需要再制造100到200个化合物才能达到开发候选人将是有益的，特别是对于管理整个投资组合而言，相对比较，这个系列比那个系列更有可能成功，可能足以在更高的ACD水平上作出所需的决策。

除了上面定义的层次之外，还有几个问题值得额外讨论。适当处理模型不确定性和解决设计分子的可合成性问题是我们在下面章节进一步讨论的两个较大挑战。

不确定性

自动化的化学设计需要探索底层的结构-活性范围，以便能够快速识别产生生产分子的化学空间区域。虽然不同的算法采用不同的选择策略来识别下一组待合成分子并进行测试，但这些方法的统一是对预测不确定度的估计。

例如，如果一个候选分子被鉴定为高度确定的无活性，那么获取和测试该分子就没有什么意义。反之，如果一个分子被预测为中等活性，但具有足够高的不确定度，它可能是非常活性的，那么该分子也许应该被测试，因为它提供了与模糊SAR景观相关的信息。遗憾的是，很少有计算程序来估计提供性能理论保证的不确定性。这种缺乏有充分依据的不确定性估计是自动化化工设计受挫的潜在根源，因为它阻碍了准确的决策。

经过良好校准的不确定性估计使精确决策具有两个基本性质：覆盖性和可区分性。覆盖性确保预测点的真实值落在该点预测值的不确定性估计之内。区分度与预测的置信度有关，与置信区间的宽度直接相关，宽度越小，置信度越高。对于一个要有用的不确定性估计，它必须同时包含这两个性质。一个预测的真值应该理想地位于不确定性估计值之内。

高斯过程回归是最常见的传统机器学习技术，具有很好的不确定性估计，经常被用于主动学习问题，如ACD系统中遇到的问题。对于其他机器学习模型，已经发展了许多其他不同计算开销和质量的技术，例如，蒙特卡罗辍学、深度核学习、认知神经网络和Jackknife+。特别是对于神经网络模型，更好的不确定性估计技术是一个活跃的研究领域。

可合成性

一个典型的领先优化程序在提名开发候选药物之前要经过许多设计、制作和测试周期。必须尽可能缩短这些循环，以增加成功的概率，因为较短的循环时间将转化为固定时间范围内的更多循环，从而扩大主动学习方法的益处。

在合成步骤是最耗时的，也是循环中最具可变性的。尽管自动合成规划和执行是令人兴奋的研究领域，但对于一个ACD系统来说，两者都不需要。然而，它们可以用来驱动下循环次数来加速ACD系统。移动到ACD等级5或ACD等级5系统需要机器考虑它设计的分子的可合成性。虽然化学家对可合成性的审查仍可在这些水平进行，但要求只过滤一小部分分子 (即机器做大部分工作)。如果化学家必须过滤大量的分子，他们就很难以实现这种可重复的、无偏见的方式，这样反而削弱了ACD系统的大部分价值。

合成路径方法在现有的ACD系统中并不普遍，因为它们的运行时间对于大的化学空间是不现实的。

De novo分子设计分子的方法具有很高的难以合成的风险。最近提出的设计与合成规划相结合的方法，或者通过可合成性启发式产生偏差的方法，都可能产生更多的可操作分子。

几种生成可合成化学空间的方法被报道，包括SAVI和SynthI这些方法保持了一组专家编码的反应变换和一组可用的结构单元来组装分子并根据合成成功的可能性可选地对其进行评分。例如，SynthI有将结构单元转换成合成子的方法，它们的反应中心注释以指示反应中心的类型。然后，这些合成子可以使用SMIRKS (反应转换语言) 转换组合。

这些基于模板的方法的缺点是需要专家维护反应规则，并且难以跟上化学的进展。据估计，超过1万条基于模板的规则必须编码以与熟练化学家的知识相匹配。然而，由于制药企业中经常使用的反应相对较少，而且常见反应的多样性，这一缺点可能在实际中具有学术意义。

最近提出了新的方法来训练深度学习模型来预测反应结果。这些方法通过从化学文献中编码一组反应物和产物来操作，以学习反应途径。当呈现新分子时，程序可以提出合成路线。这些方法虽然很有前途，但缺乏广泛可用的数据集，尤其是负面结果。虽然内部电子实验室笔记本 (ELNs) 提供了令人信服的训练数据来源，但反应及其结果往往不是以一致的方式捕捉的。为了解决这个缺点，内部ELN应该配备严格的业务规则，以便随着时间的推移这些数据库能够成为丰富的训练数据来源。希望开放反应数据库等公共努力能够随着时间的推移，为更广泛的研究团体填补这一需要。

合成难度的排序也将是一个重要的研究领域。在主动学习过程中利用合成风险，通过明确地将合成难度与期望报酬挂钩，可以提供探索-开发研究的重要组成部分。重要的是不能把可合成性看成是一个二元条件，而是一个难度的度量。必须准确地估计合成给定分子的努力程度和风险，以便系统能够在更容易但信息较少的分子和更有信息但更具挑战性的分子之间做出最优选择。可以利用优化设计的字段来最大化可变工期成本函数的收获。

图3.本文讨论的最显著的ACD系统被归入图1所定义的层次。

ACD级别的排序。图3总结了上面讨论的ACD系统。注意，如表1所列，我们有意不称某化合物在ACD系统，除非它已被用于现实世界中分子的创造和测试。我们选择从这两个自动化轴中分配线性水平，以决策轴为主。

虽然这两个轴心都存在重大的技术挑战，但我们认为，走向更自动化的决策是一个更整体性的挑战。为了使自动决策有效，所有相关的标准必须由机器处理，以避免机器走向无意义的分子 (dead-end)。这种决策控制的变化代表了信任被置于系统中的水平。自动决策还可以对系统进行清洁试验 (如ACD等级2所讨论的)，因此是生产持续改进系统的关键。注意系统不必在这个单一的线性尺度上逐级推进。例如，一个系统可能从ACD等级0系统逐步改进为ACD等级2系统，而从未成为ACD等级1系统。

表2. 帮助团队评估Acd系统质量的重要问题

人与机器的合作

以上的ACD水平描述了赋予机器的自主性和决策水平的提高。但即便是在最高层，人机合作对于一个成功的系统来说也是核心。需要最多上下文和不同类型信息集成的决策最好由人类专家完成，即使在ACD等级5系统中也是如此。

第一，人类定义了分子的目标。这就需要部分了解相关的生物学过程 (从临床和临床前数据)、可接受的治疗方案的临床设定、疾病修饰的有用水平以及这种潜在治疗方案与替代品的关系。

第二，我们所有的分子检测方法都只是代表人类有效治疗的真正目标。即使是最好的检测方法也会产生误导性的结果。这可能是由于一些基本原因，例如老鼠与人类在生物学上存在差异或特定于检测的技术原因。在许多情况下，ACD系统会错误地对此类化合物进行分类并选择进一步优化。对这些问题的注意和调试往往需要对检测的物理和化学基础有深入的了解。不同的检测方法概念上的相同物理现象可以产生不一致的结果，而人类专家的一项关键工作就是定义检测级联，为翻译人类疾病提供最有说服力的证据。仔细的分析级联设计将有助于机器避免追逐伪影，但我们也期望更有效的ACD系统首先需要学习或被告知如何避免其中的一些伪影。然而，鉴于缺乏公开可用的数据和分析干扰的多条路径，这可能是一项具有挑战性的任务。

第三，化学专利背后的新颖性概念往往是模棱两可的，对于一个人，更不用说电脑，是难以理解的。虽然可能从专利中提取特定的化学实例，并将这些与算法生成的分子进行自动比较，但对Markush主张的解释是一种尚未被机器掌握的艺术形式。目前，人类负责对计算机生成的分子的新颖性进行评估，鉴于这种评价的复杂性、专利申请报告缺乏标准，以及专利申请中存在的混淆，在可预见的将来，新颖性的评估可能是人类化学家的一个领域。

第四，人类将在几个层面上继续提供对整个过程的监督。自动化系统可能陷于死胡同，需要复位才能取得进展。新的外生信息可能重新定义项目。鉴于所观察到的进展，是否继续该方案的总体决定，从根本上说是一项涉及机构背景和未满足医疗需要影响的人类决定。

随着技术的普及，药用化学家的工作不断演变。当今医药化学家认为理所当然的结构搜索系统等工具，在过去的30年里才开始使用。每一位化学家所使用的性质计算直到20世纪初才变得普遍。我们期望ACD系统的日益使用将延续这一趋势，改变化学家对成功生产药物所需的各种活动的时间分配。

总结

我们提出的ACD框架的一个目标是能够更好地探究和理解自动化设计系统的功能和价值。虽然直接用ACD等级作为价值判断可能很诱人，如'ACD等级3系统优于一个ACD等级2系统’，但情况并不一定如此。

仅仅因为一个系统以一定的自治水平运作并不意味着该系统要么适用于许多问题，要么非常适合其预定目的。例如，人们可以想象一个ACD等级5级体系只能在未分支的烃链上运行。虽然它可能出于某一目的自主地寻找最佳的未分支烃链，但对其有用的问题并不多。同样，一个ACD等级2系统可能简单地做出不好的选择，而一个人为驱动的ACD等级0系统就可以更快地发现一个可接受的分子。由此可见，对系统有用性的评价与确立其自主性水平是彼此分开的。

然而，ACD水平的确激发了一个ACD系统的用户或客户应该要求更深入地理解系统的价值的问题。并不是每一个问题都适用于每一个层次的系统，但这些都应该导致系统的创造者和潜在用户之间更严谨的讨论。

同时，有许多有用的计算和人工智能方法运用于药物研发中，这些方法不会将系统转移到更高的ACD水平。从文献或图像中提供生物学注释的系统可以帮助人类选择正确的靶点。对临床资料的分析可以帮助确定合适的患者进行治疗。在ACD等级0系统中，更好的人工智能或基于物理的预测可以显著改善决策。这个视角中的层次定义只是捕获了药物发现中许多有用的计算轨迹之一。

当前对进一步发展分子设计的自主计算方法的极大兴趣，将创造许多可以归入ACD水平的系统。希望我们在这里所介绍的命名能够促进整个社会的讨论、理解和重点研究。

参考资料

Brian Goldman, Steven Kearnes, Trevor Kramer, Patrick Riley, and W. Patrick Walters. Journal of Medicinal Chemistry 2022 65 (10) , 7073-7087. DOI: 10.1021/acs.jmedchem.2c00334

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。