今年的诺贝尔化学奖授予了三位在蛋白质设计和结构预测领域工作的科学家。奖金的一半颁给了美国西雅图华盛顿大学的大卫·贝克,另一半颁给了来自英国谷歌DeepMind的戴米斯·哈萨比斯和约翰·杰普。
我们早就知道蛋白质是生命的化学工具——有许多不同类型的蛋白质,它们在我们的身体中扮演着不同的角色。每种蛋白质都是由一串氨基酸组成的,这些氨基酸折叠成特定的3D形状或结构,每种蛋白质的功能都与这种形状密切相关。了解蛋白质的结构有助于我们理解它是如何工作的,几十年来,科学家们一直在研究蛋白质结构的方法,这一路上提出了许多挑战。
蛋白质是由一长串氨基酸组成的。每个特定的序列会将自己折叠成特定的3D形状或结构,使蛋白质能够在体内发挥其功能。
在20世纪50年代,x射线晶体学的发展使研究人员能够获得蛋白质的第一个3D结构。1962年,约翰·肯德鲁和马克斯·佩鲁茨因这项工作被授予诺贝尔化学奖。其他实验方法,如核磁共振和低温电镜,也被加入到工具箱中,研究人员现在已经确定了大约20万种蛋白质的结构。
1972年,美国生物化学家克里斯蒂安·安芬森(Christian Anfinsen)因发现氨基酸序列决定多肽链的折叠方式,不需要额外的遗传信息而获得诺贝尔化学奖。这意味着从理论上讲,只要知道蛋白质的氨基酸序列,就可以预测蛋白质的形状。
这一发现让科学家们花了50年的时间来寻找一种方法,通过氨基酸序列来预测蛋白质的三维结构,但简而言之,蛋白质理论上可能的构象数量是天文数字。
这个所谓的“预测问题”成为生物化学的巨大挑战,并导致1994年启动了一个名为“蛋白质结构预测关键评估”(CASP)的项目,该项目后来变成了竞争,旨在加速该领域的发现。然而,多年后才取得重大突破。
这三位科学家的工作是紧密相连的。Hassabis和Jumper利用人工智能(AI)仅从蛋白质的序列来预测蛋白质的3D结构。与此同时,贝克开发了一种可以解决逆向问题的计算方法:从具有特定结构的蛋白质开始,计算出它的序列。这使他能够创造出以前不存在的全新蛋白质。
所有这些工作都建立在几十年来对蛋白质结构的研究和诺贝尔化学奖的基础上。
在20世纪90年代,贝克开始探索蛋白质如何折叠。利用这些见解,他开发了罗塞塔:一种预测蛋白质结构的计算机软件。
最初,Rosetta被用于将氨基酸序列转化为结构,但在1998年CASP竞赛之后,Baker和他的团队决定反向使用该软件;这项技术最终使他们从零开始创造出全新的蛋白质,也被称为de novo design。
David Baker的蛋白质设计工作产生了一系列新的蛋白质结构,每种结构都具有特定的特性或执行特定的功能
为了做到这一点,他们绘制了一种具有全新结构的蛋白质,并让罗塞塔计算出哪一种氨基酸序列会导致这种蛋白质。然后,他们将一种编码他们提出的氨基酸序列的基因引入细菌,细菌产生了这种新的蛋白质,Top7。利用x射线晶体学,他们能够确定他们制造的蛋白质的结构与他们最初设计的结构非常接近。
Baker和他的同事们的工作成果于2003年发表,Rosetta的代码被发布给全球研究社区,以使软件和新应用程序的持续开发成为可能。
2010年,英国计算机科学和人工智能研究员哈萨比斯创立了DeepMind Technologies。DeepMind最初为流行的棋类游戏开发了人工智能模型,在2014年被谷歌收购后,它的AlphaGo程序在2016年击败了世界上最好的围棋选手,实现了机器学习的里程碑。该公司接着构建了一个基于卷积神经网络的计算机程序,称为AlphaFold。
2018年,AlphaFold在第13届CASP竞赛中落后于其他领域,预测蛋白质结构的准确率达到60%。但是,要获得更高的精度,则是一个新的挑战。
跳普是一位研究人员,他对如何改进AlphaFold有创造性的想法。跳马和哈萨比斯共同领导了2020年AlphaFold2的研究工作,这得益于跳马对蛋白质的了解,以及人工智能(被称为变压器的神经网络)巨大突破背后的创新,后者可以比以往任何时候都更灵活地从大量数据中发现模式。
当一个结构未知的氨基酸序列被输入程序时,它会在数据库中搜索相似的氨基酸序列和蛋白质结构。然后,该网络创建相似序列的排列,有时来自不同的物种,并寻找它们之间的相关性以及氨基酸之间可能的相互作用。从这些信息中,AlphaFold2可以迭代地细化距离图——它告诉你两个氨基酸在空间上的距离——并进行序列分析。最后,它将所有信息转换成3D结构。
现在AlphaFold拥有超过200万用户,并预测了2亿个蛋白质结构。
由于这些突破,大多数单体蛋白质结构现在可以高保真地预测,因此已经创建了数以亿计的结构的大型数据库。蛋白质是我们生物学的一个关键组成部分,能够设计它们并预测它们的结构,为药物、纳米材料和疫苗的快速开发以及许多其他领域的潜在应用开辟了道路。
毫无疑问,像AlphaFold这样的人工智能蛋白质结构预测工具的发展代表了结构生物学的一个重要里程碑,但它们并不能取代实验结构测定。实验确定的结构仍然优于预测,它们也需要为下一代人工智能工具生成训练数据集,以及用于评估这些工具在预测结构方面的性能。
持续需要实验方法的一个例子是药物设计。虽然确定蛋白质的结构可能有助于产生下一步要制造什么化合物的想法,但关于蛋白质的生物活性,还有许多其他因素需要考虑,比如药代动力学、代谢和毒理学,这些因素目前还不能用人工智能来解决。
结构生物学的未来更有可能是将高通量实验研究与人工智能相结合,而不是取代人工智能。
茱莉亚以科学通讯员的身份加入了《化学世界》团队
2023年5月到期。在此之前,她花了8年时间领导临床和科学公司
英国皇家药学会(Royal Pharmaceutical Society)的官方期刊《The Pharmaceutical Journal》是药剂师的会员机构。查看完整档案