首页 > 教程攻略 > ai资讯 >超越AlphaFold？ESMFold2正式面世：用10亿开源蛋白质图谱拓展生命科学的边界

超越AlphaFold？ESMFold2正式面世：用10亿开源蛋白质图谱拓展生命科学的边界

来源：互联网时间：2026-05-28 14:28:52

在蛋白质结构预测领域，AlphaFold一度被视为难以撼动的标杆。但最近，一项新成果的出现，正在改变这个格局。

2026年5月27日，《Nature》刊登了一篇文章，标题很直接：“Move over, AlphaFold: open source model predicts shape of 1 billion proteins”。这篇文章宣布，由Meta前大模型团队负责人Alex Rives领衔、陈·扎克伯格生物中心团队打造的全新模型——

ESMFold2

，正式面向公众开放。一同发布的，还有一个包含

11亿个预测蛋白质结构

和

68亿条蛋白质序列

的巨型数据库，名为

ESM Atlas

。在蛋白质结构预测这场竞赛中，闭源、商业限制和算力筑起的高墙，正在被开源社区的浪潮撼动。

不妨来聊聊几个关键点。

填补进化的空白

ESMFold2能预测出如此庞大的蛋白质数量，秘诀在于它的训练数据和底层逻辑。

传统的AlphaFold严重依赖已知物种的序列对比（MSA）。而ESMFold2走的是一条截然不同的路——它基于前沿的蛋白质语言模型架构。打个比方，它就像一个精通生命密码的超级ChatGPT，在通读了来自生命之树的数十亿条蛋白质序列后，已经洞悉了氨基酸排列与空间折叠之间的物理统计规律。

它把大量来自自然环境、此前仅被微弱注释甚至完全没有注释的蛋白序列，也纳入了预测范围。和AlphaFold Database相比，这个新Atlas的条目多出了

8亿以上

；就算和此前版本的ESM Atlas相比，也多出约

3亿

。

ESMFold2架构

在架构设计上，ESMFold2采用循环架构，将后期状态的表示循环回早期状态。团队对循环更新施加了约束，防止激活值无界增长，并通过多个循环进行反向传播。配对层也经过了简化，只保留三角形乘法和前馈跃迁（没有三角形关注或单态），这让每个ESMFold2环路跑得更快。此外，团队还实现了自定义CUDA内核，进一步提升了处理速度。

抗体设计与蛋白质复合物的全面超越

如果仅仅是数量上的堆砌，还不至于让学术界沸腾。Biohub团队在预印本论文中展示的数据显示，ESMFold2在多项关键性能上，甚至完成了对最新版

AlphaFold3

的超越。

ESMFold2的速度极快，在结构预测基准测试中达到了最先进的准确性。尤其值得一提的是，它在预测蛋白质相互作用——这一公认的难题上表现突出，包括抗体与其靶标之间的相互作用。

结构预测基准测试

湿实验验证中，研究人员利用ESMFold2针对数种与癌症和免疫系统疾病密切相关的靶点蛋白，在虚拟世界里从头设计了一批全新的、能与这些靶点强力结合的抗体及功能蛋白。

实验样品与靶标结合

ESMFold2的设计算法采用了一种简洁的方法：通过序列和结构联合模型，寻找预测会与目标结合的蛋白质。整个过程分为两个阶段。首先是候选生成阶段：在ESMFold2的表示空间中搜索，生成数万个甚至更多的候选设计，这一过程大约耗时两天。接下来是评分和排名阶段：利用ESMFold2的置信度评分，评估候选者预测的结合亲和力和结构稳定性，这个阶段不到一天。两个阶段都易于并行化。

为了测试更多计算是否能改善结果，团队生成了两个推理-计算尺度的候选池，并筛选了每个尺度上每个目标和格式的前84个设计。结果，微型结合物的平均成功率从54%提高到70%，单链抗体的平均成功率从12%提高到21%。

ESM图谱

为了让蛋白质生物学的这种组织变得可导航，团队建立了ESM图谱。这个地图包含68亿条序列和11亿个预测结构，使得研究蛋白质的序列和结构能够作为一个完整的图景进行探索。

在利用该图谱进行的首批探索中，研究人员就获得了一个史诗级的发现。此前，

CRISPR基因编辑系统

被认为广泛存在于原核生物（如细菌）的免疫防御机制中。而科学家利用ESM Atlas的结构相似性检索功能，竟然在2023年发现的一种土壤真菌——

以及其他

真核生物中，找到了与CRISPR极其相似的、具备潜在基因编辑功能的蛋白质空间结构。

ESM图谱

替代或是补充

麻省理工学院的知名计算生物学家Sergey Ovchinnikov认为，不应将ESM Atlas视为AlphaFold的掘金替代者，而应将其视为一个极具战略价值的强力补充。

AlphaFold在高精度细节、多小分子配体和离子结合的预测上，依然保持着传统优势。而ESMFold2则在宏基因组泛化、超大规模高通量筛选和抗体设计上，展现出了惊人的效率。

当然，从眼下来看，第一版ESMFold在预测异常蛋白质结构方面并不特别出色，面对与已知结构差异极大、极度非主流的怪异蛋白质结构时，表现会打折扣。虽然ESMFold2在很大程度上克服了这种对非典型结构的泛化局限，但依然需要全球科学家在使用过程中进行严谨的评估。

超越AlphaFold？ESMFold2正式面世：用10亿开源蛋白质图谱拓展生命科学的边界

ESMFold2

11亿个预测蛋白质结构

68亿条蛋白质序列

ESM Atlas

填补进化的空白

8亿以上

3亿

抗体设计与蛋白质复合物的全面超越

AlphaFold3

ESM图谱

CRISPR基因编辑系统

以及其他

替代或是补充

相关阅读

相关下载