▎药明康德内容团队编辑
日前,《科学》网站公布了2021年度科学突破的评选结果,人工智能(AI)准确预测蛋白质结构最终当选。这项生命科学领域的革命性突破解决了持续50年的重大生物学难题,并为探索人体与生命的本质铺平了道路。
1972年12月,美国生物化学家Christian Anfinsen博士站在瑞典斯德哥尔摩国际会议中心的舞台中央,在全世界的聚光灯下领取属于他的荣誉。这位新科诺贝尔化学奖得主在获奖演讲中,提出了一个简单而深邃的猜想。此后的半个世纪里,全世界的科学家为之困惑,但也为之着迷。这就是蛋白质折叠问题——蛋白质的氨基酸序列,应该能完全决定这个蛋白质的结构。
▲蛋白质结构完全决定了其功能(图片来源:DeepMind)
在那之后,科学家们尝试多年,然而一维序列与三维结构之间如同存在一道天堑,始终无人能够跨越——毕竟,氨基酸序列可能形成的蛋白质结构数目太过庞大,一个蛋白质理论上可以形成10300个空间结构。直到最近,在AI的帮助之下,这个沉睡已久的重要问题终于等来了答案。
蛋白质是生命的基本构造单元,与几乎所有生命过程息息相关;而蛋白质的功能则直接取决于它的三维结构。在很长一段时间里,解析蛋白质的结构都是一个费时费力且昂贵的过程,需要复杂的实验室分析。
最近十多年间,转机开始出现。冷冻电子显微镜的应用使得科学家能迅速确定蛋白质结构;另一方面,伴随着AI的发展,两年一次的蛋白质结构预测关键评估(CASP)竞赛给了科学家展示、提升新算法效果的好机会。在这项通过给定氨基酸序列预测蛋白质三维结构的竞赛中,历年的参赛者连突破40分都极其困难。(满分为100分,超过90分算作“解决了蛋白质折叠问题”。)
2018年, AlphaFold的出现改变了一潭死水的局面。这个由DeepMind公司研发的AI算法初次登场,便取得了接近60分。而当这个算法在两年后再次参赛,历史性的突破到来了:AlphaFold拿下了90分!在Anfinsen博士提出这个猜想的48年之后,蛋白质折叠问题终于被解决了。
▲AlphaFold根据氨基酸序列预测的蛋白结构与实验解析的结果几乎完全重合(图片来源:DeepMind Blog)
AlphaFold在2020年CASP竞赛上的表现令全球瞩目,而在围观者中,华盛顿大学的David Baker教授从中看到了更多的可能性。随后,他的团队设计了一个可以用更少的算力预测蛋白质复合体结构的新算法:RosettaFold。
2021年7月,AlphaFold与RosettaFold相隔一天,分别登上了《自然》与《科学》杂志。
短短一周后,DeepMind公布了AlphaFold预测的蛋白结构数据库。这个数据库包含了AlphaFold预测的约35万个蛋白结构,对98.5%的人类蛋白质结构进行了预测。
值得一提的是,这两个AI算法都能根据氨基酸序列准确预测蛋白质结构,但两者的策略以及优势有所不同。与预测准确率更高的AlphaFold相比,RoseTTAFold在双轨神经网络的基础上增加了第三个轨道,能适应全蛋白质组的规模,更适合预测蛋白质复合体的结构。
▲RoseTTAFold系统能够基于多个蛋白序列,预测复合体的结构(图片来源:参考资料[3])
正是因为这样的差异性与互补性,这两个AI算法也有了联动的可能性。今年11月,Baker教授团队就结合了AlphaFold和RosettaFold的优势,预测出真核生物蛋白质复合体的三维结构。这篇论文的另一位通讯作者丛倩教授表示,这项成果和由DeepMind引领的单体蛋白结构预测领域的突破一同,“预示着结构生物学进入了一个新时代,而计算在其中发挥着重要作用。”
▲RosettaFold与AlphaFold联合预测出的蛋白质复合体三维结构(图片来源:丛倩教授/得克萨斯大学西南医学中心)
《科学》杂志的社论文章指出,这些AI算法在两个层面具有重要意义。首先,它解决了一个持续50年之久的重要科学问题。正如近年来收获答案的费马大定理或是引力波探测一样,在生物学领域,科学家持续的努力也终于让这个未解之谜告破。另一方面,从技术角度,这些AI算法的出现就如同CRISPR和冷冻电镜,能对今后的科学探索起到极大的推动作用。无论是出于其中哪个理由,预测蛋白质结构的AI当选年度科学突破都实至名归。
进入2021年度科学突破候选名单的还包括:首个口服抗新冠病毒药物问世;缪子实验出现了可能突破标准模型的新结果;“洞察号”通过火星地震揭开了火星内部结构;来自西班牙和西伯利亚洞穴的发现改写了人类与动物的演化史;CRISPR应用于人体,治疗遗传疾病;实验室制造的单克隆抗体用于治疗传染病等等……这些突破共同谱写了2021年科学的辉煌瞬间,也让我们对下一年的科学进展充满期待。
参考资料:
[1] H. Holden Thorp(2021). Proteins, proteins everywhere.Science, https://doi.org/10.1126/science.abn5795
[3] Baek, et al., (2021) Accurate prediction of protein structures and interactions using a three-track neural network.Science, https://doi.org/10.1126/science.abj8754
[4] Ian R. Humphreys et al., Computed structures of core eukaryotic protein complexes.Science(2021). DOI: 10.1126/science.abm4805
点个“在看”再走吧~
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com