【机器学习】从二维光谱识别蛋白二级结构

——背景——

近日，中国科学技术大学的Jun Jiang团队与加州大学Irvine分校的Shaul Mukamel团队联合在PNAS上发表了题为Machine learning recognition of protein secondary structures based on two-dimensional spectroscopic descriptors的文章。他们借助机器学习，实现了从二维紫外光谱（2DUV）信号中准确地识别蛋白的二级结构motif。

蛋白质的结构对于理解其生物学功能具有重要的意义。现有的AI模型大多都无法反映蛋白的动态性质(如跨膜输运、配体结合、折叠)，而这些重要的动态性质会塑造蛋白的功能。二维UV光谱可以检测体系的局部与全局结构的时间分辨响应，但是解释其信号具有难度，因此作者借助了机器学习识别2DUV的二级结构，作为捕捉光谱中构象转化的工具。

——方法发展与结果——

作者构造了三个数据集，数据集中的蛋白经过分子动力学模拟，每1000 fs取一个snapshot，提取出其中纯二级结构motif。三个数据集分别来源于：

Ⅰ) 初始数据集：天然蛋白bovine deoxyhemoglobin (PDBid: 1HDA) 与lentil lectin (1LES)的MD轨迹中各片段的二级结构——α-helix, β-sheet, others（包含3₁₀-helix,π-helix, bend and coil）

Ⅱ) 同源数据集：human deoxyhemoglobin (1A3N) 与Pea lectin (1BQP)

Ⅲ) 非同源数据集498个其他蛋白中的片段。

作者使用SPECTRON程序模拟了这些片段的线性吸收谱（LA）、圆二色谱（CD）和2DUV谱，共得到了147993个结构-光谱对应的采样。

首先在数据集I上，作者以7：1：2随机分割了训练、验证以及检验集，对2DUV搭建了2D CNN模型（模型架构如下），对LA与CD谱分别搭建了1D CNN模型进行了训练。在不同的超参数下，LA与CD谱分别对二级结构的预测取得了86∼91%与87∼93%的准确度，而2DUV的2D CNN模型达到了接近100%的准确度。

图1. 2DUV谱图分辨二级结构的2D CNN模型

但是，随后作者测试了模型的可转移性，将上述pretrained的模型在同源数据集II与非同源数据集III上进行了测试，它们的表现下降都很明显。LA、CD以及 2DUV的准确度分别下降到了72.6%、73.1%与66.4%，其中2DUV的下降尤为严重。下降的原因可能是新数据集中出现了新的发色团环境让模型无法识别。

为了拓展模型的知识范围，作者引入了迁移学习的策略对模型进行了fine-tuning。对数据集I、II、III，各随机抽样了500、500、2000个样本（相较于整个数据集这个数目不大），在训练中冻结了卷积层的参数。迁移学习后的三个谱图模型都获得了准确度的大幅提升，测试集III上 LA：72.6%->88.0%，CD：73.1%->86.7%，2DUV：66.4%->91.3%。不同测试集上表现的混淆矩阵如下图：

图2. 三种谱图分辨模型在二级结构辨别上的表现

结果显示2DUV谱比起LA与CD更易于预测二级结构，作者认为这主要归功于2DUV谱可以同时反映电子跃迁以及耦合的信息，能够捕捉到结构变化的微小差别。

为了理解2DUV信息对分辨二级结构起到的作用，作者使用grad-CAM方法寻找了对网络判别起重要作用的区域。如下图，以三种二级结构类型随机选择的三个片段为例：α-helix重要的谱图区域在对角线下方的远紫外区，与肽沿着螺旋的强耦合相一致；β-sheet重要的区域显示单肽的激活更显著，耦合较弱。grad-CAM输出的heatmap如下图：

图3. 2DUV的CNN模型分辨二级结构的解释

——总结——

作者构造了蛋白质片段的光谱数据集，以此为基础发展了机器学习模型可以自动化、准确地辨别片段的二级结构，可以为光谱学实时监测蛋白结构变化提供很好的工具。

参考文献：

Ren H, Zhang Q, Wang Z, Zhang G, Liu H, Guo W,Mukamel S, Jiang J. Machine learning recognition of protein secondary structures based on two-dimensional spectroscopic descriptors. Proc Natl AcadSci U S A. 2022 May 3;119(18):e2202713119.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。