打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【分子生成】引入Randomized SMILES改善化学分子生成模型
userphoto

2022.08.17 北京

关注

在先前的文章中(循环神经网络在从头分子设计中的应用【深度学习+分子设计】图生成模型在从头分子设计中的应用【生成模型】流模型的发展史:NICE → RealNVP → Glow),介绍了分子生成里面用到的GAN、VAE和流生成模型。今天为大家介绍一篇近期发表在Chemrxiv 上的文章,“Randomized SMILES strings improve the quality of molecular generative models”。这篇文章通过数据扩增的方式,在基于 SMILES的化学分子生成模型中引入Randomized SMILES,提高了模型生成化学分子的能力,拓展了生成分子的化学空间。

——生物学背景——

探索未知的化学空间是药物发现领域的重点目标之一,因为类药化学分子数量巨大到无法穷尽。GDB数据集包含众多片段类似的化学分子,是一个用于尝试理解化学空间的重要数据集。

在过去的两年间,研究人员提出了诸多用于探索化学空间的化学分子生成模型,通过指定数据集训练模型去学习生成类似训练集的新的化学分子,以及通过强化学习和迁移学习的方式可以指定生成具备某些性质的分子。目前分子生成模型主要分为基于SMILES的生成模型和基于Graph的生成模型,其中基于SMILES的分子生成模型所使用的深度学习框架包括了RNN、VAE、GAN等。

——Randomized SMILES ——

这篇文章作者通过比较基于GDB-13的规范式的SMILES数据集和Randomized SMILES数据集来训练模型,得出后者能更好提高模型生成化学分子的能力。

规范式的SMILES是按照Morgan算法对化学分子采用的一种字符串描述,一般满足特定规则(比如分子顺序等)并具有唯一性(如图1A所示)。Randomized SMILES则是通过打乱分子顺序或者不依照侧链顺序等的字符串描述,理论上对于一个分子有n!方式。对于随机化的SMILES,作者进一步将其分成了完全无限制的随机和有一定约束的随机两种情况。 

图1.  不同的SMILES描述方式

——方法和数据集——

这篇文章使用RNN作为模型框架,比较了两种RNN变体LSTM和GRU对模型的影响。模型是线性架构,首先经过Embedding层对预处理SMILES的one-hot形式进行编码,再经过多层RNN处理,最终经过线性转换层输出(图2)。

图2.  模型架构

模型训练采用3种规模数据集,每种均采取规范式SMILES和Randomized SMILES,其中后者的模型每个epoch数据都是重新抽样。此外,模型还比较了不同超参数对模型性能的影响(比如batchsize,dropout等),并且作者还提出UC-JSD指标来评估模型的性能,该指标旨在比较训练集和测试集的NLL分布,可用于挑选最佳的训练模型。

——模型结果及总结——

作者首先使用GDB-13数据集进行了训练。不论在哪种规模数据集上,均是有限制的Randomized SMILES数据集表现优于另两类SMILES,并且在大规模数据上,前者训练时间和各个评价指标都表现更好(图3)。

图3. 不同数据集规模的模型结果

之后,作者又用ChEMBL数据集进行了测试。在ChEMBL数据集上,规范式数据集训练结果偏过拟合,而Randomized SMILES测试集训练集的KDE(核密度估计)分布一致,表明后者能更好覆盖化学空间(图4)。

图4. 在ChEMBL数据集上两种模型核密度估计分布

作者认为之所以规范式SMILES训练的模型不足以探索更广的化学空间,是因为相较于Randomized SMILES这种自由随机对化学分子的字符串描述,规范式SMILES字符串描述存在的规则约束(原子顺序、侧链顺序等)使得模型在训练时需要额外学习这些规则从而使得生成的化学分子具备某些特质更类似于训练集(规范式SMILES),而Randomized SMILES数据集对化学分子的字符串描述没有约束,则训练模型时不用额外学习描述规则,使得泛化的更强。这一结果,或可为今后的分子生成模型训练集的设计带来新的启发。

参考文献:
Arús-Pous, Josep, et al. "Randomized SMILES strings improve the quality of molecular generative models."(2019).
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
手把手教你用R做GSEA分析
李泽厚,美的告别
轰动全国的灭鼠大案:他拒绝卖给美国配方,被专家告到身败名裂......
《中华人民共和国民法典》完整版(全文1260条)
第一批阳康的夫妻,已经离婚了……
农历到底有多强?一文读懂农历!我们真的应该好好重视它了
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服