Science ｜AlphaMissense：蛋白质错义突变效应预测器

基因组测序方法揭开了人类中广泛存在的遗传变异。错义突变是遗传变异的其中一种，会导致蛋白质氨基酸序列改变。致病性的错义突变会导致机体适应性降低，但是对于错义突变的变体进行分类是一项巨大的挑战。在人体蛋白质中存在的突变中大约只有2%曾经被研究过，大部分错义突变的分子效应并不可知，这大大限制了临床罕见病的诊断。

机器学习的方法可以用以大规模预测蛋白质的结构，AlphaFold能够准确预测蛋白质序列，而预测蛋白质变体则可以预测功能的变化（详情请转：Nature丨AlphaFold现已确定约2亿蛋白结构）。为此，英国Google DeepMind的Žiga Avsec研究组、Pushmeet Kohli研究组以及Jun Cheng合作在Science上发文题为Accurate proteome-wide missense variant effect prediction with AlphaMissense，实现了对蛋白质组错义突变进行注释和预测。

作者们所建立的AlphaMissense利用无监督蛋白质语言模型对氨基酸序列的分布特征进行学习，进一步通过结合AlphaFold衍生结构预测，最后对大数据进行微调避免偏差注释。作者们对于AlphaMissense的训练分为两个阶段，第一阶段通过单链结构对蛋白质氨基酸序列多位点进行替换和预测，并且对于改变的氨基酸和参考序列的效应进行预测。第二阶段，对人类蛋白质组中具有病理性突变的蛋白质以及突变进行分类。

临床上具有一些错义突变数据库，这些数据库可以用于病理性特征预测，但是这些数据包含临床注释的一些的偏向性，可能会导致对于错义突变的错误理解。为此，作者们避免直接用临床注释的错义突变数据。

作者们首先对所建立的AlphaMissense模型在ClinVar错义突变进行评估。之后，作者们进一步评估了AlphaMissense模型在两个重要蛋白质数据库中的表现，这两个数据库分别是American College of Medical Genetics以及临床相关的研究数据库MAVE【1-2】。作者们发现AlphaMissense模型可以实现最先进的性能以及达到更高的临床研究基准。

之后，作者们使用AlphaMissense模型对人类蛋白质组进行分析和预测。整个人类蛋白组19233个蛋白中有2.16亿个可能的致病性单氨基酸变化，会导致7100万个错义变异预测结构。

作为社区公共资源，作者们提供了所有人类蛋白质的单氨基酸替换，发现32%的错义突变是病理性的，而57%的突变则是良性的。这一数据库模型可以作为设计和探测氨基酸突变的研究资源，也可以用于在大规模人群中量化基因以及基因突变的功能。最后，临床医生也可以将该资源用于罕见病诊断，为复杂、有害的遗传变体提供研究信息。

图1 工作模型

总的来说，作者们通过基于与AlphaFold相似的模型训练方法建立了对于单氨基酸错义突变的结构预测数据库模型AlphaMissense（图1），可以对错义突变对于蛋白质功能的分子效应进行阐述，有助于鉴定致病性错义突变义以及未知的致病基因，可以提高对于罕见病的诊断。

原文链接：

https://doi.org/10.1126/science.adg7492

参考文献

1. M. J. Landrum et al., ClinVar: Improving access to variant interpretations and supporting evidence. Nucleic Acids Res. 46, D1062–D1067 (2018). doi: 10.1093/nar/gkx1153; pmid: 29165669

2. D. Kuang et al., Prioritizing genes for systematic variant effect mapping. Bioinformatics 36, 5448–5455 (2021). doi: 10.1093/bioinformatics/btaa1008; pmid: 33300982

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。