打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【机器学习】从二维光谱识别蛋白二级结构
userphoto

2022.08.17 北京

关注
背景——

近日,中国科学技术大学的Jun Jiang团队与加州大学Irvine分校的Shaul Mukamel团队联合在PNAS上发表了题为Machine learning recognition of protein secondary structures based on two-dimensional spectroscopic descriptors的文章。他们借助机器学习,实现了从二维紫外光谱(2DUV)信号中准确地识别蛋白的二级结构motif
蛋白质的结构对于理解其生物学功能具有重要的意义。现有的AI模型大多都无法反映蛋白的动态性质(如跨膜输运、配体结合、折叠),而这些重要的动态性质会塑造蛋白的功能。二维UV光谱可以检测体系的局部与全局结构的时间分辨响应,但是解释其信号具有难度,因此作者借助了机器学习识别2DUV的二级结构,作为捕捉光谱中构象转化的工具。

方法发展与结果——

作者构造了三个数据集,数据集中的蛋白经过分子动力学模拟,每1000 fs取一个snapshot,提取出其中纯二级结构motif。三个数据集分别来源于:
) 初始数据集:天然蛋白bovine deoxyhemoglobin (PDBid: 1HDA) lentil lectin (1LES)MD轨迹中各片段的二级结构——α-helix, β-sheet, others(包含310-helix,π-helix, bend and coil
) 同源数据集:human deoxyhemoglobin (1A3N) Pea lectin (1BQP)
) 非同源数据集498个其他蛋白中的片段。
作者使用SPECTRON程序模拟了这些片段的线性吸收谱(LA)、圆二色谱(CD)和2DUV谱,共得到了147993个结构-光谱对应的采样。
首先在数据集I上,作者以712随机分割了训练、验证以及检验集,对2DUV搭建了2D CNN模型(模型架构如下),对LACD谱分别搭建了1D CNN模型进行了训练。在不同的超参数下,LACD谱分别对二级结构的预测取得了8691%8793%的准确度,而2DUV2D CNN模型达到了接近100%的准确度。

1. 2DUV谱图分辨二级结构的2D CNN模型

但是,随后作者测试了模型的可转移性,将上述pretrained的模型在同源数据集II与非同源数据集III上进行了测试,它们的表现下降都很明显。LACD以及 2DUV的准确度分别下降到了72.6%73.1%66.4%,其中2DUV的下降尤为严重。下降的原因可能是新数据集中出现了新的发色团环境让模型无法识别。
为了拓展模型的知识范围,作者引入了迁移学习的策略对模型进行了fine-tuning。对数据集IIIIII,各随机抽样了5005002000个样本(相较于整个数据集这个数目不大),在训练中冻结了卷积层的参数。迁移学习后的三个谱图模型都获得了准确度的大幅提升,测试集III LA72.6%->88.0%CD73.1%->86.7%2DUV66.4%->91.3%。不同测试集上表现的混淆矩阵如下图:

图2. 三种谱图分辨模型在二级结构辨别上的表现


结果显示2DUV谱比起LACD更易于预测二级结构,作者认为这主要归功于2DUV谱可以同时反映电子跃迁以及耦合的信息,能够捕捉到结构变化的微小差别。
为了理解2DUV信息对分辨二级结构起到的作用,作者使用grad-CAM方法寻找了对网络判别起重要作用的区域。如下图,以三种二级结构类型随机选择的三个片段为例:α-helix重要的谱图区域在对角线下方的远紫外区,与肽沿着螺旋的强耦合相一致;β-sheet重要的区域显示单肽的激活更显著,耦合较弱。grad-CAM输出的heatmap如下图:

图3. 2DUV的CNN模型分辨二级结构的解释

总结——

作者构造了蛋白质片段的光谱数据集,以此为基础发展了机器学习模型可以自动化、准确地辨别片段的二级结构,可以为光谱学实时监测蛋白结构变化提供很好的工具。
 
参考文献:
Ren H, Zhang Q, Wang Z, Zhang G, Liu H, Guo W,Mukamel S, Jiang J. Machine learning recognition of protein secondary structures based on two-dimensional spectroscopic descriptors. Proc Natl AcadSci U S A. 2022 May 3;119(18):e2202713119.
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
近红外光谱分析技术的数据处理方法
【人物与科研】上海科技大学陆珺霞课题组:固态核磁技术对TDP43(311-360)片段的淀粉样纤维成纤维机制的研究
重大技术突破!有望解决代谢组学定性难题
DUV LED最新研究成果----电极互连模型和多峰模型
紫外圆二色光谱预测蛋白质结构的研究方法
蛋白质组学入门第三期
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服