撰文:朱哼哼
编审:王哈哈
排版:李雪薇
2021 年 11 月 17 日,Science 杂志公布了 2021 年的年度科学突破榜单,AlphaFold 和 RoseTTA-fold 两种基于人工智能预测蛋白质结构的技术位列榜首。
除此之外,年度科学突破还包括:开发针对 COVID-19 的抗病毒药、μ 子的新测量、火星地震观测、从土壤恢复古代人类 DNA、CRISPR 体内应用、对早期人类发展的新见解、使用迷幻类药物治疗 PTSD、开发用于治疗传染病的单克隆抗体以及聚变能生成的进步。
此外,Science 杂志还评选了三个年度科学故障(breakdowns),包括实现气候目标的希望渺茫、阿尔茨海默病药物引发愤怒,以及科学家们因新冠疫情受到排斥和攻击。
本文主要介绍本年度最重要的科学突破——基于人工智能的蛋白质结构预测。
结构生物学持续 50 多年的困惑
我们都知道,蛋白质是生命活动的主要承担者,甚至毫不夸张的说,没有蛋白质就没有生命。因此,长期以来蛋白质都是生命科学工作者研究的重点。而其中,蛋白质的结构更是众多生命科学工作者研究的热点,毕竟其主要功能是由结构决定的。
1957 年,John C. Kendrew 和 Max F. Perutz 通过 X 射线晶体学确定了第一个蛋白质结构。不久之后,Christian B. Anfinsen Jr. 提出蛋白质的结构在热力学上是稳定的,似乎可以根据蛋白质的氨基酸序列来预测蛋白质的三维结构。
然而,蛋白质的结构复杂性远超人们的想象。依据中心法则,蛋白质主要是由 DNA 转录成 RNA,再翻译成肽链后组装而来,一个蛋白质分子是由一条或几条多肽链组成,多肽链则折叠成特有的形状。同时,蛋白质分子的专一形状是由4个层次的结构决定的,包括一级、二级、三级和四级结构,前一级结构决定后一级结构。
其中多肽链的氨基酸序列是一级结构,一级结构中的部分肽链卷曲或折叠产生二级结构。二级结构经过一系列的构象改变形成三维结构即三级结构,一般为球状或纤维状。三级结构有特定的结构域,形成结合位点或调节位点,可以结合特定结构的物质,行使特定的功能。两条或两条以上的多肽链组成的蛋白质,可以形成四级结构。
图 | 蛋白质 3D 结构(来源:Nat Commun)
因此,从 Christian B. Anfinsen Jr. 理论提出至今 50 多年的时间里,科学家始终无法解决蛋白质折叠的问题,对于蛋白质结构的了解依旧十分有限。
而近年来,随着冷冻电子显微镜技术的发展,可以在没有结晶样本的条件下观察蛋白质结构,使得蛋白质结构研究有所进展。不过,冷冻电镜是非常昂贵的设备,只有极少数的实验室才有条件配备,对于广大科研工作者非常不友好。因此,生命科学界亟需新的方法解决蛋白质折叠问题。
AI 助力解决蛋白质结构预测难题
随着计算机科学的发展,此前曾有学者提出利用计算机模型解决蛋白质折叠问题。虽然这一想法是可行的,但是在随后数十年的时间里,人们开发的各种计算机模型预测蛋白结构的准确性始终有限。
在过去 25 年中,国际蛋白质结构预测大赛(CASP)一直关注这个领域的进展,试图寻找能够完美解决蛋白质折叠问题的计算机模型。直到第 14 届大赛 CASP14 大赛成功举办,DeepMind 旗下的 AlphaFold 系统在蛋白质结构预测方面表现出了无与伦比的准确性。
该比赛的评价方式是将参赛者提供的解决方案与“黄金试验标准”进行对比,用 GDT 评分衡量准确性,范围为 0-100,GDT 分数在 90 分左右,即可视为对人类实验方法具备竞争力。而 DeepMind 旗下的 AlphaFold 系统总分竟然达到了 92.4,和实验的误差在 1.6,即使是在最难的没有同源模板的蛋白质上面,这个分数也达到了了恐怖的 87.0 。
同时,AlphaFold 的神经网络能在几分钟内预测出一个典型蛋白质的结构,还能预测较大蛋白质(比如一个含有 2180 个氨基酸、无同源结构的蛋白质)的结构。该模型能根据每个氨基酸对其预测可靠性进行精确预估,方便研究人员使用其预测结果。
图 |研究人员使用 RoseTTAFold 预测的人类白细胞介素 12 与其受体结合的 3D 视图(来源:UW Medicine Institute for Protein Design)
随后,在今年 7 月份,华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导一支计算生物学家团队,成功开发一款名为 RoseTTAFold 的工具,基于深度学习,能够根据有限的信息快速准确地预测出目标蛋白质的结构,达到与 AlphaFold2 不相上下的准确度。
不仅如此,RoseTTAFold 所需的计算耗能与计算时间均比 AlphaFold2 还要低:仅用一台游戏计算机,在短短十分钟内就可以可靠地计算出蛋白质结构。更值得注意的是,RoseTTAFold 的代码和服务器完全免费提供给科学界!
图 | David Baker(来源:华盛顿大学官网)
自 7 月以来,相关程序已被 140 多个独立科研团队从 GitHub 免费下载,来自世界各地的科学家现在正在使用 RoseTTAFold 来构建蛋白质模型,以加速相关领域的研究。
同样在今年 7 月份,DeepMind 创始人兼首席执行官 Demis Hassabis 也在 Nature 杂志上分享了AlphaFold的开源代码,并发表了系统的完整方法论,详尽细致说明 AlphaFold 是如何做到精确预测蛋白质3D结构的。也就是说,这款强大蛋白质结构预测模型已经是完全免费的。
至此,两种强大的基于人工智能的蛋白质结构预测模型全部免费开放,科研工作者可以随时利用这两款模型获取蛋白质的空间结构,而无需对蛋白质进行结晶或使用昂贵的冷冻电镜进行研究。
在同步配发的评论文章里,Science 杂志的主编 Holden Thorp 对此表示,“首先,它解决了困扰生命科学近 50 年的蛋白质折叠问题,好比物理学中的引力波,科学家们数十年如一日,坚持不懈最终才攻克这一难题;其次,这一技术改变了未来结构生物学的规则,就像冷冻电镜那样,加速生命科学的发展;此外,完全免费意味着它是真正适合所有人的蛋白质预测模型。”
参考资料:
https://www.eurekalert.org/news-releases/937705?
www.science.org/doi/10.1126/science.abn5795
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com