AI创造 | 化合物定向生成

AI作曲，AI 作画，AI 作诗，AI 续写《红楼梦》...今天介绍的这篇文章帮大家剖析AI 如何做化合物定向生成。

为什么要做化合物定向生成

据估计，类药化合物超过1060 ，但目前发现的化合物数量总和才约108。面对如此大的理想与现实的差距，科学家们第一想到的就是虚拟方法，分离不出来？合成不出来？没关系，所谓想的到才能做的到，先用计算机造出来。怎么造呢？

(1) 最直接的方法就是按化合物稳定性原则一一穷举，Reymond教授团队仅用C、N、O和F原子列举最多含有11个原子的化合物，符合稳定性原则的有2640万，同样只用这四个原子进行组合，列举最多含有17个原子的化合物数量就高达1660亿，登录 https://gdb.unibe.ch/downloads/ 网站，发现也就做到了17个原子，再往下做就是爆发式增长了。除了穷举法，也有其他团队用化合物合成反应的原理生成虚拟的新化合物。同时值得我们思考的是：生成那么多虚拟的化合物如何用呢？

(2) 另一些科学家就想出了虚拟筛选的方法帮我们标出来哪些化合物是最有活性潜力的，这其中最常用的方法就是定量构效关系建模（QSAR）和分子对接（Docking）。随着虚拟化合物库的爆发式增长，对活性的虚拟筛选要求越来越高。最近一篇发表在Nature上的文章就介绍了超大型虚拟数据库的分子对接结果：1.38亿个化合物对接一个蛋白靶标在超算机上需耗时43,563核时，非专业团队已很难负荷这样的软硬件配备。

(3)此外，研究者们从未停止对更高效方法的探索。骨架迁移和inverse QSAR就是代表，将计算机辅助和专家经验相结合，做一些定向的结构改造。

AI的破解思路

神经网络算法将AI创造推向高潮，AI模仿梵高，AI模仿莫扎特……。只要给计算机足够的学习样本，他就可以自动抽提样本中的特征，输出带有相应特征的结果。那么理论上，如果输入活性化合物，计算机就会自动输出具有类似活性的化合物了。既实现新化合物的生成，又有活性潜力，这一石二鸟的方法果然已有先驱做过了，而且还成功了。发表结果显示神经网络算法（有些研究还加入自编码器），可以定向生成全新的靶标阳性化合物。

然而，众所周知，神经网络算法的训练需要大量的样本，还需要高性能计算机耗费至少数周的时间才能完成。对于有少量实验数据的科研人员想单纯的试试这个方法也只能望洋兴叹了。所以化合物定向生成的平台，ChemGenerator应运而生。

ChemGenerator的原理

如文章所述，ChemGenerator采用的是自编码（autoencoder）递归神经网络(RNN)算法完成化合物的有效生成，即Model 1，再利用迁移学习完成化合物的定向生成，即Model 2。

首先来看一下数据源的选择。递归神经网络算法在AI生成领域应用广泛，同时在语言处理上优势显著。如果说化合物结构图是一种化合物的图形表示，化合物的SMILES格式更像是对化合物的语言描述。这种描述更适合RNN算法。

另一方面，神经网络算法是基于矩阵的运算，所以要对每一个化合物SMILES字符串进行编码，使其转换成一个矩阵。该研究中，国际通用的SMARTS 和 InChI编码都有做尝试，但是另外两个编码字段都比较长，意味着编码的矩阵就会更大，运算耗费也更大，事实也发现生成效果不好。但是SMILES编码有个问题就是同一个化合物在不同数据库的SMILES由于编码算法的不同而不同。该研究训练集的SMILES采用的是与PubChem同样的SMILES编码，所以测试集最好也采用PubChem的SMILES编码算法进行标准化处理。

在算法的选择上，该研究采用了RNN的长短时记忆单元(LSTM),如下图。一个LSTM cell，有一个记忆层C和隐藏层h，分别代表长时记忆和短时记忆，同时通过输入门it和遗忘门ft来选择不同时间上需要保留在记忆层C上的信息，并通过输出门Ot 从记忆层C中产生下一个时刻的h。所以LSTM是通过长时的记忆和最近的输入来计算下一个时刻输出值的概率，预测值即为概率最高的输出值。在运算中会给出种子文本，即部分SMILES字符串，通过种子文本预测下一个字符，然后循环往复直至预测到表示终止的字符。此外，该研究还结合了自编码器。许多研究发现自编码通过将高维数据映射到低维再解码到高维，不仅可以提取出特征结构还可以降低噪音。文献数据也显示结合自编码器LSTM在化合物生成效果上表现更优。该研究通过训练约700万个SMILES字符串，成功实现了有效SMILES的生成。

但ChemGenerator的根本任务是定向生成，接下来需要迁移学习发挥关键作用。迁移学习是指在大样本上训练得到的模型参数迁移到小样本的训练中，从而降低对小样本学习的样本数的要求。这篇文章尝试了释放model 1的最后三层或四层并全连接另外两个隐藏层来训练迁移学习模型参数。

迁移学习模型以对EGFR靶标在细胞实验上检测为阳性活性的化合物进行训练，结果显示新生成的361个化合物中有88%是非训练集中的新化合物。为了评估新生成的化合物的靶标活性，采用了另一个经典的虚拟模型（基于化合物扩展连通性指纹（ECFP）的Boosting Decision Tree模型，AUC=0.946）进行新生成的化合物活性预测，发现63.4%的化合物预测为活性阳性。

目前，该模型已建立web server,平台的模型架构如下图所示，

用户只需上传对某个靶标活性阳性的化合物SMILES的CSV格式文件，该平台即可自动分析并将生成后的化合物SMILES以CSV格式文件在网页输出提供下载或者将结果通过邮件送达。ChemGenerator目前免费对外公开使用，感兴趣的研究者不妨试试。

最后，根据前面的理论介绍，有两个使用tips：一是该模型的训练数据集采用的是与PubChem数据库相一致的SMILES编码，鉴于不同数据库的SMILES可能不同，建议输入数据集统一采用PubChem的编码算法进行标准化SMILES。二是定向生成是让计算机进行数据集的特征提取，建议输入数据集是一组相同特征的化合物，比如均是某个靶标的活性阳性化合物。

今天就聊到这儿，有兴趣的小伙伴可通过DOI: 10.1093/bib/bbaa407阅读全文，或访问网站http://smiles.tcmobile.org/直接使用。在AI时代，能否通过化合物定向生成技术找到治疗疾病的药物，就看各位小伙伴啦！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。