超越AlphaFold?ESMFold2正式面世:用10亿开源蛋白质图谱拓展生命科学的边界
在蛋白质结构预测领域,AlphaFold一度被视为难以撼动的标杆。但最近,一项新成果的出现,正在改变这个格局。
2026年5月27日,《Nature》刊登了一篇文章,标题很直接:“Move over, AlphaFold: open source model predicts shape of 1 billion proteins”。这篇文章宣布,由Meta前大模型团队负责人Alex Rives领衔、陈·扎克伯格生物中心团队打造的全新模型——
ESMFold2
11亿个预测蛋白质结构
68亿条蛋白质序列
ESM Atlas
不妨来聊聊几个关键点。
填补进化的空白
ESMFold2能预测出如此庞大的蛋白质数量,秘诀在于它的训练数据和底层逻辑。
传统的AlphaFold严重依赖已知物种的序列对比(MSA)。而ESMFold2走的是一条截然不同的路——它基于前沿的蛋白质语言模型架构。打个比方,它就像一个精通生命密码的超级ChatGPT,在通读了来自生命之树的数十亿条蛋白质序列后,已经洞悉了氨基酸排列与空间折叠之间的物理统计规律。
它把大量来自自然环境、此前仅被微弱注释甚至完全没有注释的蛋白序列,也纳入了预测范围。和AlphaFold Database相比,这个新Atlas的条目多出了
8亿以上
3亿

在架构设计上,ESMFold2采用循环架构,将后期状态的表示循环回早期状态。团队对循环更新施加了约束,防止激活值无界增长,并通过多个循环进行反向传播。配对层也经过了简化,只保留三角形乘法和前馈跃迁(没有三角形关注或单态),这让每个ESMFold2环路跑得更快。此外,团队还实现了自定义CUDA内核,进一步提升了处理速度。
抗体设计与蛋白质复合物的全面超越
如果仅仅是数量上的堆砌,还不至于让学术界沸腾。Biohub团队在预印本论文中展示的数据显示,ESMFold2在多项关键性能上,甚至完成了对最新版
AlphaFold3
ESMFold2的速度极快,在结构预测基准测试中达到了最先进的准确性。尤其值得一提的是,它在预测蛋白质相互作用——这一公认的难题上表现突出,包括抗体与其靶标之间的相互作用。

湿实验验证中,研究人员利用ESMFold2针对数种与癌症和免疫系统疾病密切相关的靶点蛋白,在虚拟世界里从头设计了一批全新的、能与这些靶点强力结合的抗体及功能蛋白。

ESMFold2的设计算法采用了一种简洁的方法:通过序列和结构联合模型,寻找预测会与目标结合的蛋白质。整个过程分为两个阶段。首先是候选生成阶段:在ESMFold2的表示空间中搜索,生成数万个甚至更多的候选设计,这一过程大约耗时两天。接下来是评分和排名阶段:利用ESMFold2的置信度评分,评估候选者预测的结合亲和力和结构稳定性,这个阶段不到一天。两个阶段都易于并行化。
为了测试更多计算是否能改善结果,团队生成了两个推理-计算尺度的候选池,并筛选了每个尺度上每个目标和格式的前84个设计。结果,微型结合物的平均成功率从54%提高到70%,单链抗体的平均成功率从12%提高到21%。
ESM图谱
为了让蛋白质生物学的这种组织变得可导航,团队建立了ESM图谱。这个地图包含68亿条序列和11亿个预测结构,使得研究蛋白质的序列和结构能够作为一个完整的图景进行探索。
在利用该图谱进行的首批探索中,研究人员就获得了一个史诗级的发现。此前,
CRISPR基因编辑系统
以及其他

替代或是补充
麻省理工学院的知名计算生物学家Sergey Ovchinnikov认为,不应将ESM Atlas视为AlphaFold的掘金替代者,而应将其视为一个极具战略价值的强力补充。
AlphaFold在高精度细节、多小分子配体和离子结合的预测上,依然保持着传统优势。而ESMFold2则在宏基因组泛化、超大规模高通量筛选和抗体设计上,展现出了惊人的效率。
当然,从眼下来看,第一版ESMFold在预测异常蛋白质结构方面并不特别出色,面对与已知结构差异极大、极度非主流的怪异蛋白质结构时,表现会打折扣。虽然ESMFold2在很大程度上克服了这种对非典型结构的泛化局限,但依然需要全球科学家在使用过程中进行严谨的评估。