Nature News | 谷歌开发AI系统预测蛋白结构取得革命性突破

Nature News | 谷歌开发AI系统预测蛋白结构取得革命性突破

蛋白质的功能取决于其3D结构

来源:DeepMind

来自Google AI的DeepMind团队开发的基于人工智能神经网络的名为AlphaFold的工具近日在今年的国际蛋白质结构预测竞赛(CASP14)中拔得头筹,并且大幅度领先第二名,成为“一骑绝尘”(图1)。相关结果在11月30日CASP举行的会议上予以总结和展示,AlphaFold预测的蛋白结构可以与使用X射线晶体衍射、核磁共振(NMR)或冷冻电镜(CryoEM)等实验技术解析的3D结构相媲美。在解决生物学最严峻的挑战之一即从蛋白质的氨基酸序列确定蛋白质的3D结构方面取得了巨大飞跃,并且被Nature杂志等多家媒体报道。 

Nature News | 谷歌开发AI系统预测蛋白结构取得革命性突破

图1 2006-2020年间CASP比赛中最佳蛋白折叠预测的评分表现。

图片源自DeepMind Blog.

“这是个巨大的进步”,马里兰大学计算生物学家John Moult说。他于1994年与他人共同创立了CASP,致力于改进精确预测蛋白质结构的计算方法。“从某种意义上说,问题已经解决。”

 

蛋白质结构问题

蛋白质的工作机理和作用取决于其3D结构-即“结构决定功能”是分子生物学的公理。从氨基酸序列准确预测蛋白质结构的能力将对生命科学和医学带来巨大的好处。这将极大地加快了解细胞组成部分的工作,并使得更快、更先进的基于结构的药物发现成为可能。在过去的几十年中,我们已经利用X射线晶体衍射、核磁共振(NMR)或冷冻电镜(CryoEM)等实验手段确定了171588(PDB数据库中最新收录情况)个蛋白质的3D结构,但与自然界中几千万条已知基因序列相比,这些结构仍然只占据了很小一部分,同时上述蛋白结构解析手段都比较耗时费力。为了填补这之间的巨大空隙,蛋白质结构预测一直是科学家们研究的热点和努力解决的重大生物问题之一。

 

AlphaFold:生物界的“AlphaGo”

第一代的AlphaFold将深度学习方法应用于结构和遗传数据来预测蛋白质中氨基酸对之间的距离(Distance Map),使得其在2018年CASP比赛中就已经崭露头角,并且在蛋白结构预测中使用该信息逐渐成为了大家的“共识”。

AlphaFold团队试图以这种方法为基础继续提高预测准确性,但最终陷入困境。因此,团队最后改变了策略,并开发了一个AI网络,该网络结合了有关确定蛋白质如何折叠的物理和几何约束的其他信息。通过使用蛋白质数据库中17万多个不同的蛋白质结构,以及几百个TB级别的包含未知结构的蛋白序列数据库对AlphaFold进行训练。通过不断地迭代,AlphaFold AI网络学习到了基于氨基酸序列精确预测蛋白结构的能力。最终使得整个网络可以预测目标蛋白质序列的最终结构,而不仅仅是预测氨基酸之间的关系。

Nature News | 谷歌开发AI系统预测蛋白结构取得革命性突破

图2 AlphaFold的神经网络模型框架。

图片源自DeepMind Blog.

在CASP14比赛中,AlphaFold预测的结构中有将近三分之二的质量与实验结构相当(图3)。在某些情况下,甚至尚不清楚AlphaFold的预测与实验结果之间的差异是预测误差还是实验的伪像。有趣的是,AlphaFold预测的与通过核磁共振技术确定的实验结构的匹配不佳,但这可能取决于原始数据如何转换为模型的问题。同时也可能是由于该神经网络还努力为蛋白质复合物或其中的单个结构建模,从而与其他蛋白质的相互作用扭曲了它们的形状。 

Nature News | 谷歌开发AI系统预测蛋白结构取得革命性突破

图3 AlphaFold预测的蛋白结构与实验解析的结果几乎完全重合。

图片源自DeepMind Blog.

 

John Moult说,大约有一半的团队在总结他们的方法时抽象地提到了“深度学习”,这表明人工智能正在对该领域产生广泛的影响。这次CASP比赛中大多数来自学术团队,但其中也不乏有微软、腾讯这样的AI大公司参与其中。

 

AlphaFold对真实世界的影响

DeepMind的联合创始人兼首席执行官Demis Hassabis透露,该公司计划使AlphaFold开源以便其他科学家可以使用它。2020年初,该公司发布了一些SARS-CoV-2蛋白的结构预测,但这些蛋白尚未通过实验确定。加州大学伯克利分校的分子神经生物学家Stephen Brohawn说,DeepMind对一种称为Orf3a的蛋白质的预测最终与后来通过cryo-EM确定的蛋白质非常相似。他补充说:“他们的能力令人印象深刻。”

AlphaFold的性能也标志着DeepMind的转折点。该公司以使用AI来熟练掌握Go等游戏而闻名,但其长期目标是开发能够实现广泛的类人类智能的程序。Hassabis说,应对巨大的科学挑战,例如蛋白质结构预测,是AI可以实现的最重要的应用之一。

显然,AlphaFold并不能够轻易取代现有的蛋白质结构解析的实验技术,但这也标志着生物学家们可以使用该工具辅助他们对蛋白质结构的研究。我们有理由相信,计算与实验手段的强强联合将会是未来科学研究发展的主要方向之一。

 

参考文献

‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures. Ewen Callaway. Nature News, 30 November 2020. DOI: 10.1038/d41586-020-03348-4

https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology