作者们所建立的AlphaMissense利用无监督蛋白质语言模型对氨基酸序列的分布特征进行学习,进一步通过结合AlphaFold衍生结构预测,最后对大数据进行微调避免偏差注释。作者们对于AlphaMissense的训练分为两个阶段,第一阶段通过单链结构对蛋白质氨基酸序列多位点进行替换和预测,并且对于改变的氨基酸和参考序列的效应进行预测。第二阶段,对人类蛋白质组中具有病理性突变的蛋白质以及突变进行分类。 临床上具有一些错义突变数据库,这些数据库可以用于病理性特征预测,但是这些数据包含临床注释的一些的偏向性,可能会导致对于错义突变的错误理解。为此,作者们避免直接用临床注释的错义突变数据。 作者们首先对所建立的AlphaMissense模型在ClinVar错义突变进行评估。之后,作者们进一步评估了AlphaMissense模型在两个重要蛋白质数据库中的表现,这两个数据库分别是American College of Medical Genetics以及临床相关的研究数据库MAVE【1-2】。作者们发现AlphaMissense模型可以实现最先进的性能以及达到更高的临床研究基准。 之后,作者们使用AlphaMissense模型对人类蛋白质组进行分析和预测。整个人类蛋白组19233个蛋白中有2.16亿个可能的致病性单氨基酸变化,会导致7100万个错义变异预测结构。 作为社区公共资源,作者们提供了所有人类蛋白质的单氨基酸替换,发现32%的错义突变是病理性的,而57%的突变则是良性的。这一数据库模型可以作为设计和探测氨基酸突变的研究资源,也可以用于在大规模人群中量化基因以及基因突变的功能。最后,临床医生也可以将该资源用于罕见病诊断,为复杂、有害的遗传变体提供研究信息。