打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature | 深度神经网络模型进行高精度有机反应机理分类
userphoto

2023.02.14 韩国

关注

Jordi Burés ,Igor Larrosa等研究者展示了一个深度神经网络模型,通过训练该模型来分析普通动力学数据并自动阐明相应的机理类型,而无需任何额外的用户输入。该模型以出色的精度识别了各种类型的机理,例如非稳态机理,涉及催化剂活化和失活步骤的机理,即使动力学数据包含大量误差或只有几个时间点,其性能也非常出色。

背景

如何设计新的催化剂、反应模式以及开发更环保、更可持续的化学工艺?对催化有机反应的机理理解是至关重要的一环。动力学分析是机理阐明的核心,它有助于从实验数据中直接测试机理假设。传统上,动力学分析依赖于使用初始速率、对数图以及最近的视觉动力学方法,结合数学速率定律推导。然而,速率定律的推导及其解释需要大量的数学近似,因此,它们容易出现人为错误,并且仅限于在稳态下只有几个步骤操作的反应网络。对此,本文介绍一种新模型分析动力学数据。

传统方式阐明反应机理的缺陷

确定将底物转化为产品所涉及的基本步骤的确切顺序对于合理改进合成方法,设计新型催化剂并安全扩大工业流程非常重要(如图1a-d)。为了阐明反应机理,收集了几个动力学剖面,专家必须对数据进行动力学分析。尽管反应监测技术已显著改进在过去的几十年里,动态数据收集可以完全自动化,基本的理论框架机理的阐明并没有以同样的速度前进。

目前的动力学分析管道包括三个主要步骤(图1e,顶部路径):从实验数据中提取动力学特性,预测所有合理机理的动力学特性,并将实验提取的特性与预测的特性进行比较。

提取动力学性质最常用的方法——初始速率对数-对数图存在许多缺陷。现代动力学分析,如反应过程动力学分析和变时间归一化分析忽略了隐含在动力学剖面中的动力学信息。动力学性质的预测所要求化学家掌握的稳态速率定律无法预测常见的远离稳态的体系,如催化剂缓慢活化或催化剂不可逆失活的反应。此外,中等复杂的反应网络也可能导致难以解释的难以管理的速率定律方程。已被用来拟合动力学数据的动力学建模难以区分有相似拟合优度。

图1:动力学分析的相关性和技术现状

AI 改变动力学分析领域

研究者证明了在模拟动力学数据上训练的深度学习模型可以从时间浓度分布中正确地阐明各种类型的机理(图1e,底部路径)。机器学习模型消除了速率定律推导、动力学性质提取和预测的需要,从而简化了动力学分析,极大地促进了所有合成实验室对反应机理的阐明。

由于对所有可用的动力学数据进行了整体分析,该方法增加了询问反应概况的能力,从动力学分析过程中消除了潜在的人为错误,并扩大了可以分析的动力学范围,包括非稳态(包括激活和失活过程)和可逆反应。研究者设想这种方法将是现有动力学分析方法的补充,在最具挑战性的情况下尤其有用。

研究内容

研究者考虑了20种常见的由催化剂(cat)将底物(S)转化为产物(P)的反应机理(图2a)。每种机理在数学上都由一组动力学常数(k1,…kn)和化学物质浓度的常微分方程(ODE)函数描述。这些方程允许产生无限数量的底物和产物的时间浓度分布,定义了一个动力学空间。虽然动力学空间是每个机理的特征,但它们可以部分重叠。为了尽量减少这些重叠,研究者使用化学标准来定义每个机理的动力学空间,优先考虑最简单的机理。

图2:机理范围和数据组成

研究者通过数值求解ODE集生成500万个动力学样本,用于模型的训练和验证。该机器学习模型包含576,000个可训练参数,并使用两种类型的神经网络进行结合:(1)长短期记忆神经网络,一种用于处理时间数据序列(即时间浓度数据)的循环神经网络;(2)全连接神经网络,用于处理非时间数据(即每次动力学运行中催化剂的初始浓度和长短期记忆提取的特征)。该模型输出每种机理的概率,概率总和等于1。

研究者用100,000个动力学样本(每个机理5,000个)的测试集评估训练模型,每个剖面包含6个浓度-时间点。重要的是,测试集中的所有动力学样本都属于独特的动力学剖面,不同于训练集中使用的动力学剖面。该模型的分类准确率为92.6%。分析每种机理样本的预测概率曲线(图3b)表明,在大多数测试样本中,模型不仅预测了正确的机理,而且具有非常高的置信度(超过99%)。

图3:机器学习模型在测试集上的性能,每个动力学曲线有六个时间点

为了充分探索该机器学习模型的潜力,研究者调查了在数据中引入误差和改变提供的数据点数量的影响。值得注意的是,当对结果测试集进行评估时,即使在数据中存在显著的标准误差(即高达2%),模型也能够保持非常高的分类精度(超过99.6%)(图4b左上)。即使对于质量较差的数据(即s.e. = 5%或95%置信区间内产量±10%的误差),分类准确度也达到了83%。该模型通过增加其预测中分组的机理数量来处理数据中误差带来的固有不确定性(图4b,右上)。

图4:误差和数据点数量对机器学习模型性能的影响

研究者使用几个实验动力学曲线对他们的模型进行了基准测试。预测的机理与早期动力学研究的结论非常吻合。在某些情况下,该模型还识别了在原始工作中没有检测到的机理细节。

图 5:实验动力学数据的案例研究

总而言之,该研究结果表明,人工智能引导的机理分类是一个强大的新工具,可以简化和自动化的机理说明,增强合成化学家处理机理研究的能力。新模型将以前冗长的速率定律推导和动力学分析过程,简化为更完整和更准确的过程。训练后的模型能够解决以前具有挑战性的复杂问题,例如有误差的动力学数据,甚至是非稳态的系统。研究者还展示了这些AlI模型如何轻松地应用于从各种催化反应中提取实验动力学数据的机理理解。

参考资料

urés, J., Larrosa, I. Organic reaction mechanism classification using machine learning. Nature 613, 689–695 (2023). 

https://doi.org/10.1038/s41586-022-05639-4

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
机器学习模型以出色的精度进行有机反应机理分类
​什么是"反应动力学"
《Nature Commun》:固体化学的“设计合成”
药物的体内过程及药物代谢动力学
RNAvelocity1:RNA速率简介及scVelo安装
生物药剂学与药物动力学
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服