Mol Inform｜基于生成对抗网络的从头分子设计

2021年7月6日，Molecular Informatics杂志发表文章，介绍了一种利用生成对抗网络从头设计分子的方法。

以下是全文主要内容。

摘要

在化学工业的从头分子设计中，生成具有有益的药理和物理化学性质的新分子是一个关键问题。深度学习和生成模型在从头构建分子设计模型方面取得了重大成就。

作者研究了一种分子生成模型，并生成了更有效的化学分子。作者提出了一种基于强化学习的生成对抗网络来进行分子生成。该方法利用公共数据集ChEMBL，可以有效地从5个基准结果中有效地生成新的分子结构。

1.研究背景

分子建模中具有代表性的是定量构效关系(QSAR)、虚拟筛选和从头设计。QSAR技术用来预测物质的化学结构与其生物活性之间的关系。虚拟筛选通过筛选化合物数据库或虚拟库来识别主要物质。当分子的合成比较容易或是虚拟化合物容易获得时，虚拟筛选是更好的选择。然而，当数据量很大时，使用数据库或虚拟库发现分子的计算成本是很高的。

从头分子设计是一种旨在在药物开发过程中产生新的活性分子的技术。它的优点是只生成相对较少的分子，并且通过搜索或优化程序来探索化学空间，因此，原则上给定评分函数，都可以探索整个化学空间。然而，如果没有任何约束或化学性质评估，由原子-副原子组合而成的分子可能在化学性质上不稳定或难以合成。这些问题已经通过不断成熟的机器学习和深度学习技术解决。

在过去的几年中，机器学习技术已经应用于基因组学、药物发现和毒性风险评估，也被用于分子特性的计算建模和与生物分子的相互作用。特别是，支持向量机、高斯过程、随机森林等方法已被应用于新药发现领域。随着计算能力的快速提高，深度学习技术取得了显著的进展，并已成功地应用于图像分类、图像字幕、语言建模、文本分类和机器翻译等领域。先进的深度学习技术被用于化学信息学，因为它们可以潜在地学习分子是如何表示的，而不是将它们定义为约束条件或评估它们的化学性质。特别是，分子可以表示为简化的分子输入（SMILES码），其中生成模型的研究中，通过将许多化学结构应用于递归神经网络(RNS)来学习字符串的概率分布。

在本研究中，作者提出了一种将基于行为-评判的强化学习和GAN架构相结合的方法。该方法由MaskGAN架构修改而来。SMILESMaskGAN由生成器、鉴别器和评判网络三大组成部分组成。该生成器使用了seq2seq，其注意机制是由编码和解码模块组成的体系结构。鉴别器和评判网络与生成器具有相同的架构。这些网络同时为生成器进行训练，以欺骗鉴别器，以区分真实的分子和由生成器产生的分子。在训练过程中的任何时间步长中，来自强化学习的基于参与-评判的训练程序被用于提供奖励来训练生成器。

用于训练的数据集是ChEMBL26数据库，它包含GuacaMol框架所使用的SMILES字符串。文中遵循GuacaMol框架中使用的数据预处理步骤，并掩盖了一些用于训练的分子结构。该方法不仅提高了生成模型的鲁棒性，而且在5个分布学习基准中显示了一致的优越性能。

2.方法

具有注意力机制的Seq2Seq序列

图1：Seq2seq结构具有解码器结构。编码器（绿色）依次接收输入序列中的所有单词，并将末端所有的单词信息压缩为一个上下文向量。解码器（紫色）接收上下文向量，并依次逐个输出单词以生成最后一个句子

SMILES-MaskGAN

MaskGAN是最近提出的一种深度学习方法，它将基于行为-评判的强化学习和GAN结合起来，通过屏蔽输入序列的部分信息来填充缺失的文本来生成句子。SMILES-MaskGAN是一个MaskGAN修改而来的架构，被设计用于学习SMILES字符串。该方法由生成器、鉴别器和评判器网络组成。生成器使用Seq2seq，注意机制架构由编码和解码模块组成。鉴别器网络和评判器网络、生成器具有相同的架构。

训练SMILES-MaskGAN

用于训练的SMILES字符串不能用连续的数字来表示。所以将梯度从鉴别器传递到生成器是困难的，而离散的原子作为概率分布的采样被输出。通过使用提供策略梯度的强化学习方法来更新生成器来解决这一限制。

数据

为了训练生成模型，本文使用了由ChEMBL26数据库(https://www.ebi.ac.uk/chembl/)提供的1,961,462个SMILES字符串的数据集。使用ChEMBL26的优势是，它只包含已经合成并针对生物靶点进行测试的分子。为了生成一个用于分布学习基准的数据集，本文作者执行了GuacaMol框架提出的相同的预处理步骤。数据集通过去除超过100个字符的SMILES字符串以及包含H、B、C、N、O、F、Si、Si、P、S、Cl、Se、Br、I和其他元素的分子，对数据集进行预处理。此外，与10种商业药物（即塞来昔布、阿立哌唑、科比米替尼、奥西替尼、曲格列酮、雷诺嗪、硫噻辛、沙丁胺醇、沙索非那定和甲醇）相比，ECFP4相似性大于0.323的分子。最后得到1,692,512个预处理后的SMILES字符串。图2显示了从最终数据集预处理过的SMILES字符串。

图2：用于比较基线模型和MaskGAN基线模型的数据集。

分布学习基准

分布学习基准是由GuacaMol框架开发的新分子设计的通用基准。执行基准测试并评估了模型学习并生成的分子与训练数据分子的相似程度。分布学习基准由五个标准组成。其中有效性基准评估是模型中生成的分子是否是理论上的现实的分子。如果生成的分子可以通过RDkit对SMILES字符串的评判，则被认为是有效的，其中效度得分计算为10,000个生成分子中有效分子的比值。

唯一性基准测试评估了这些模型是否能产生独特的分子。唯一性得分计算为从模型中生成的10,000个有效分子与从有效分子中排除重复分子的分子的比值。新颖性基准评估一个从头设计模型是否能够生成训练数据中不存在的分子。新颖性得分计算为产生10,000个不同分子的比例，并且不包括ChEMBL数据集中的数据。通过比较生成的分子集和训练数据集的各种物理化学描述符的概率分布，计算Kullback-Leibler (KL)散度基准。KL散度测量了一个分布与另一个分布的接近程度。

模型

图3：Seq2seq与注意力机制生成器架构。

3.结果

表1：基线模型和SMILES-MaskGAN模型的五个分布学习基准（粗体显示基准内最高分）。

输入序列掩蔽比的比较

对于SMILES-MaskGAN的训练，80%的ChEMBL26数据集用于模型训练，20%用于验证。本文训练了SMILES-MaskGAN150个epoch，一批大小为512。输入序列的掩蔽比设为0.1。模型使用Adam优化器优化了网络参数，使用的权重衰减为0.001，基本学习率为0.01。在整个训练过程中，根据指数将每个epoch的基础学习率乘以0.9，降低了学习率。采用梯度裁剪技术，防止训练梯度消失或爆炸。梯度裁剪值设置为5。掩蔽比是根据初步的实验值分别为0.1、0.2和0.3来确定的。所有实验均采用PyTorch1.6.0进行。

4.结论

本研究提出了一种将强化学习与GAN模型相结合的生成模型，以适用于从头分子设计。本文通过使用掩蔽的分子结构数据，并对输入序列采用掩蔽策略，来提高生成模型的鲁棒性。此外，该方法的生成器采用了具有注意机制的编码器-解码器结构。在每个原子解码时间步长上，使用不同的上下文向量来提高生成分子的质量。该学习策略利用策略梯度来学习生成器的参数，并估计强化学习的优势，以减少梯度方差。在实验中，该方法在GuacaMol框架下开发的分布学习基准上取得了较高的效果。特别是，它在唯一性和新颖性方面的得分高于其他方法。

考虑到本文的方法有望在药物发现和新颖活性分子生成领域的效果，需要仔细选择输入序列的掩蔽比。这种掩蔽比在产生违反化学性质的分子中具有重要的作用。在本工作中，为了确认上述问题，本文考虑了改变掩蔽比。因此，当使用的掩蔽比为0.1时，本文提出的方法在所有基准测试中得分都很高。

本文的工作可以扩展到生成模型架构方面的新方向。在从头设计中使用的是基于RNN的生成模型依次处理输入；因此，并行处理是不可能的，计算成本很高。自注意机制作为解决上述问题的技术已被广泛应用于文本和图像生成领域。因此，对于分子的生成，扩展到一个自注意的结构可能有利于研究和建立新的有效分子生成模型。

参考资料

Lee Y J, Kahng H, Kim S B. Generative Adversarial Networks for De Novo Molecular Design[J]. Molecular Informatics, 2021, 40(10): 2100045.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。