打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
50年生物学难题迎两款AI产品破局!Science、Nature同日发文,预测蛋白结构算法开源


【导读】
「AI预测蛋白质折叠,为何让学界如此狂热?」

AI又让学术圈沸腾了,《Science》和《Nature》甚至齐齐发文。

去年谷歌旗下AI公司Deepmind开发出一项名为Alphafold2的AI算法,在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,以至于许多人宣布这个长达数十年的问题“已被解决”。

当时此消息一出,立刻登上了Nature杂志封面,标题直接评论为:“它将改变一切!”李飞飞、马斯克等众多大佬纷纷点赞、转发。这项技术甚至被评为2021年十大科学突破之一。

而今天AlphaFold2终于开源:DeepMind 的 CEO 哈萨比斯等人在 《Nature 》上也发表论文,公布了 AlphaFold2 的源代码,并且详细描述了它的设计框架和训练方法。


而更惊喜的是,这项技术不再是Deepmind一家独大,同日,《Science》发表了来自华盛顿大学 David Baker 团队的蛋白质结构预测论文,开发了名为 RoseTTAFold 的蛋白质结构预测系统。


而且该团队开发出的算法更快更轻便,只需要一个英伟达RTX2080 GPU,10分钟就能算出蛋白质结构。


AI预测蛋白质折叠,为何让学界如此狂热?

蛋白质的精确形状决定了它能实现的生化功能,50年来,科学家们一直在努力解决生物学最大的挑战之一: 预测氨基酸在成为真正的蛋白质时会折叠成什么样。

这个问题于1972年被克里斯蒂安·安芬森提出,它的验证曾经困扰科学家50年:

给定一个氨基酸序列,理论上就能预测出蛋白质的3D结构。


传统的方法是实用X光和低温电子显微镜,这些方法费时费力,而且在已知的2亿种蛋白质中,只有17万种有详细的分子图谱。今年,由英国 DeepMind 研究人员开发的人工智能AlphaFold实现了这个目标,可以精确地预测出大多数蛋白质的结构。
 
这个新项目可以帮助研究人员发现疾病的发病机制,研发新药,甚至改造出更耐旱的植物。

在过去的几十年中,人类已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术确定蛋白质的基本结构,但这些技术基于大量试错,往往需要花费数年时间,成本也非常高。

而此前的AI算法,在CASP14(蛋白质结构预测比赛)中,准确性也只达到40分左右(满分100)。


在去年的比赛中,AlphaFold2 预测的大部分结构达到了空前的准确度,不仅与实验方法得出的结果不相上下,还远超解析新蛋白质结构的其他方法。


华盛顿大学团队角力DeepMind,科研界的「卷」让世界进步

但当时这个消息并未让所有学界内的人都感到兴奋。

华盛顿大学的David Baker就是其中之一。

David Baker

David Baker 表示,2020年 DeepMind 在CASP14大会上的表现,给业界带来极大震撼,AlphaFold系统对蛋白结构的预测如此精准,让学术界产生了许多悲观情绪,他自己甚至一度觉得要失业了。

但他很快调整心态,决定挑战AlphaFold系统。

Baker带领的团队开发出的RoseTTAFold,初衷就是因为DeepMind没有开源AlphaFold的代码,最后他们联合哈佛大学、剑桥大学等机构研发出了这个基于深度学习的RoseTTAFold,准确率上媲美AlphaFold2,而且所需算力仅为其零头,团队也已经在github上开源了代码,这让很多条件落后的单位也有机会使用这些AI工具。
 
RoseTTAFold 是一个三轨道神经网络,输入兼顾了蛋白质序列、氨基酸如何相互作用以及蛋白质可能的三维结构,然后采用类似RNN的循环结构,让三个维度的信息可以来回交流,所以预测会天然考虑物理和化学作用。
 
 
从Github目前的Star数量来看,DeepMind的AlphaFold更胜一筹,有两千多个,RoseTTAFold只有三百多。

但是从可行性上来讲,RoseTTAFold要好一些,毕竟比起有谷歌支持的Deepmind,动辄上T的内存需求和超贵的显卡,不是哪个实验室都能拥有。

那看看Deepmind这次开源发表的文章有无更好看的点。

Deepmind的首席执行官哈赛比斯等人在 Nature 的文章名为《Highly accurate protein structure prediction with AlphaFold》,首次透露了AlphaFold的完整方法论,包括设计原理和细节,并开源了代码,它可以在原子水平上预测蛋白质结构。
 
AlphaFold 所使用的深度学习算法,利用的是多序列对齐,还结合了蛋白质结构的物理和生物学知识来提升效果。

AlphaFlod 首次参加 CASP 就准确地预测出了 43种蛋白质中的25 种,它专注于从头开始建模目标蛋白质的形状,且并不使用先前已经解析的蛋白质作为模板,也就是说,它并不会参考之前已知的蛋白结构。

 
AlphaFold 网络直接预测给定蛋白质的所有原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入。
 
同为一作的John Jumper开篇讲了一下核心观点,将物理直觉融入到了网络结构中,端对端直接生成结构取代了残基的距离矩阵,从图的角度出发预测蛋白质的物理和几何结构

有意思的是,Nature 特意在论文标题前开头备注:“这是一份未经编辑的手稿,但是已允许出版。Nature Research 乐意为作者和读者提供这份手稿的早期版本。”


难道是已经感受到了被后辈超越的危机?

今天两篇论文的相继登出,颇有几分学界向企业界挑战、捍卫自身领域科研未来的戏剧化味道。

但不管谁最后胜出,都将对未来的药物设计、疾病治疗带来革命性的变化。

论文链接:
https://www.nature.com/articles/s41586-021-03819-2
https://science.sciencemag.org/content/early/2021/07/14/science.abj8754

清华系芯片巨头紫光被申请破产,阿里携500亿来「接盘」?
AI界「春晚」开幕:虚拟偶像做主持,马化腾瞄向太空,李彦宏大谈智能汽车| WAIC
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
《科学》年度突破揭晓!解决50年生物学难题,它改变了一个领域
人类生物学的大突破,就这样被AI做到了
困扰了科学家70年的蛋白空间结构难题,现在被AI解决了
AI攻破50年生物学难题!《自然》:“这将会改变一切”
2021年度蛋白质结构预测最佳方法
Nature|人工智能助力蛋白质折叠预测
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服