IBM RXN for Chemistry: 揭开有机化学语言的语法面纱

今天给大家介绍的是来自IBM Research Europe，MIT-IBM Watson AI Lab和伯尔尼大学的科学家发表在Science Advances的文章《Extraction of organic chemistry grammar from unsupervised learning of chemical reactions》，文章提出从大量有机化学反应中提取了有机化学“语言”的“语法。

用Rosetta Stone破解语言代码

19世纪，罗塞塔石碑(Rosetta Stone)为学者提供了破解象形文字代码的起点，而象形文字是结合了地理学，音节和字母元素的古埃及文字系统。虽然学者们能够快速翻译出刻在石头上的54行希腊文字，但花了数年的时间才能完全破译14条象形文字。英国学者托马斯·杨(Thomas Young)在1814年取得了重大突破，但法国人让·弗朗索瓦·尚波利翁(Jean-Francois Champollion)在1822年提供了完整的翻译。通过翻译映射将这14行与罗塞塔石碑上书写的其他两种语言一起解密，足以重建语法。并为学者们提供了一个了解埃及语言和文化繁荣时期的窗口。

快进到今天，Rosetta Stone的体验相当于去国外通过完全沉浸式学习母语。您作为“学者”与当地人，他们的方言，文化，习俗甚至街道标志的互动越多，您就越能识别和映射语言结构，口语短语和发音中反复出现的模式，而不会正式的语言课程。

语言习得或流利使用外语的自然过程实质上是各种语言元素的映射，以理解各个单词，表达方式和概念之间的联系，以及它们的精确顺序如何映射到您的母语。

回到有机化学的语言，研究人员问了自己两个基本但非常重要的问题：如果有可能可视化学到的映射模式，该怎么办？如果可以从这些学习的模式中提取语言规则，该怎么办？

从人脑中提取信息可能是不可能的，但是研究人员认为当学习者是神经网络模型时，这是可能的。研究人员通过重复展示数百万个化学反应的例子，让模型学习化学反应的语言。然后，研究人员通过肉眼检查学习到的模式，将经过训练的人工智能模型拆箱，这表明该模型已经捕获了原子在反应过程中如何重新排列而无需监督或标记。从这个原子重排信号中，研究人员提取了控制化学反应的规则。研究人员发现这些规则与在有机化学中学习的规则相似。

Transformer模型的力量

2018年，研究人员使用合成化学中的自然语言处理(NLP)架构创建了一个称为RXN的最先进的在线化学平台，用于预测化学反应的结果。具体来说，研究人员使用了Molecular Transformer，其中化学反应由称为SMILES的领域特定语言表示。那时，研究人员将化学转化构架为从反应物到产物的翻译，类似于将英语翻译为汉语。这项新工作中使用的模型架构非常相似，这带来了另一个重要问题：为什么Transformer在化学方面如此出色？

Transformer模型之所以如此强大是因为它们学会了在上下文中表示输入（原子或词）。化学中，氧原子并不总是具有相同的含义。其含义取决于上下文或周围的原子，即取决于同一分子中的原子以及在反应过程中与之相互作用的原子。

Transformer是由堆叠的self-attention层组成的(图3)。注意机制负责连接概念并使基于原子上下文构建有意义的表示成为可能。每个self-attention层都由多个“负责人”组成，每个人都可以学会以不同的方式参加上下文。用人类语言来说，一个脑袋可能专注于主题在做什么，另一脑袋可能专注于原因，而第三脑袋可能专注于句子中的标点符号。学会在上下文中注意不同的信息对于理解句子的不同部分如何连接以解密正确的意义至关重要。

RXNMapper–最终的原子映射工具

研究人员使用该原子映射信号来开发RXNMapper，这是一种最新的，最新的开源原子映射工具。根据最近的一项独立基准测试研究，RXNMapper的性能优于现在的市售产品。考虑到原子映射信号是在没有监督的情况下获悉的，这是一个了不起的结果。

这将对化学家的工作产生什么影响？对于计算化学家来说，高质量的原子映射是极其重要的组成部分。因此，RXNMapper是传统下游应用（如反应预测和合成计划）的必不可少的工具。现在，研究人员可以从原子映射的反应中提取化学反应的“语法”和“规则”，从而可以在几天内构建出一致的化学反应规则集，就像人类手动管理的情况一样。研究人员的RXNMapper不仅准确，而且非常快。这样就可以在数小时内映射包含数百万个反应的庞大数据集。

人类使用不同的领域语言来表示，探索和交流科学概念。过去的几百年中，化学家们通过了解原子在化学转化过程中如何重新排列，从而对化学合成的语言进行了推断，从而推断出一系列“反应规则”。原子映射是一项艰巨的实验任务，当使用计算方法解决时，需要对化学反应进行连续注释，并扩展逻辑上一致的指令。这里，研究人员证明了Transformer神经网络无需监督或人工标记即可学习产物与反应物之间的原子映射信息。使用Transformer注意权重，研究人员构建了一个化学不可知的，注意指导的反应映射器，并从未注释的反应集中提取了相关的化学语法。研究人员的方法在准确性和速度方面都表现出了卓越的性能，即使对于具有非平凡原子映射的强烈不平衡和化学复杂的反应也是如此。它为许多化学反应任务提供了数据驱动的方法和基于规则的方法之间的缺失链接。

参考资料

Extraction of organic chemistry grammar from unsupervised learning of chemical reactions. Philippe Schwaller1, Benjamin Hoover, Jean-Louis Reymond, Hendrik Strobelt and Teodoro Laino.

Science Advances 07 Apr 2021:Vol. 7, no. 15, eabe4166

DOI: 10.1126/sciadv.abe4166

https://www.ibm.com/blogs/research/2021/04/rxnmapper-chemistry-grammar/

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。