人类56年解不出,谷歌AI一夜连破9道世纪难题
这个月的数学界,可以说是彻底沸腾了。
前脚OpenAI刚用自然语言推理推翻了埃尔德什的一个80年猜想,数学家们的惊叹声还没散去。紧接着,Google DeepMind就亮出了另一张王牌——全新的AI数学智能体
AlphaProof Nexus

它的首秀堪称震撼:一口气解决了
9道
埃尔德什开放问题
悬置了整整56年
更关键的是,这次的结果拥有无可辩驳的确定性。因为每一个证明步骤都经过了Lean编译器的形式化验证,不存在任何“幻觉”或逻辑漏洞的空间——编译器通过,证明即为正确。而且,解决每道题的平均算力成本,
仅需几百美元

值得注意的是,这次的AlphaProof Nexus与2024年那个在国际数学奥林匹克竞赛中摘银的初代AlphaProof截然不同。初代主要依赖强化学习树搜索,而Nexus则融合了大语言模型、AlphaProof和进化算法,其目标直接对准了人类数学家都感到棘手的研究级难题。
AlphaProof Nexus:三合一架构如何运作
这套系统的设计思路清晰,采用了一种分层递进的架构,从简单到复杂,共分为四个层级。
Agent A(基础版)
Agent B
Agent C
Agent D(完整版)

整个工作流程形成了一个高效的核心循环:AI提出证明草稿 → Lean编译器验证 → 若失败则反馈错误信息 → AI根据反馈修正 → 再次提交验证。这个过程循环往复,直到证明完全通过,或者达到预设的算力预算上限。
以
埃尔德什问题#125

AlphaProof成功解决了6个子目标中的3个。随后,子智能体将剩余的几个“硬骨头”进一步分解为更小的引理,再次调用AlphaProof——这一次,所有难题被一举攻克。整个过程,没有任何人类数学家的直接介入。
九道难题告破,最老悬案终结
DeepMind将完整版的Agent D投向了353个已经形式化的埃尔德什问题,每道题最多允许进行3000轮迭代尝试。
最终,有9道长期悬而未决的问题被成功攻克。

其中几道问题的含金量尤其高:
1. 埃尔德什问题 #12(1970年提出)
这个问题悬置了56年,期间多位数学家取得了部分进展,但始终无法给出完整的构造。AI的解法精妙地结合了中国剩余定理和三项等差数列回避集,通过构建一系列精心设计的“区块”,同时满足了密度条件和整除约束。

2. 埃尔德什问题 #125(1996年提出)
AI证明了其下密度为零。证明的核心是一个归纳稀疏化论证,巧妙地利用了3^m和4^k的丢番图逼近性质(因为log4/log3是无理数),通过反复找到两个基数几乎对齐的尺度,让密度以0.99的比率逐步衰减到零。

3. 埃尔德什问题 #138(1981年提出的变体)
AI给出了一个极其优雅的证明:W(k+1) ≥ W(k) + k。核心思路是贪心染色扩展——在一个没有单色k项等差数列的2-着色基础上,逐个添加新元素,并用反证法说明贪心策略不会失败。
4. 埃尔德什问题 #846
这是一个关于平面点集中共线性质的问题。AI的构造令人叹为观止:它将完全图K∞的每条边映射到平面上的一个点,用二次多项式编码坐标,然后利用无穷拉姆齐定理完成了证明。

目前,这9道问题的完整Lean证明代码均已开源。

简单智能体也能解全部难题?
整个研究中最出人意料的结论,或许不是完整版Agent D的强大,而是:
最简单的Agent A,竟然也能独立解决全部9道问题。
Agent A既没有进化算法,也没有AlphaProof作为工具,它仅仅依靠多个独立的大语言模型子智能体与Lean编译器的反馈循环。根据DeepMind团队的对比分析,在大多数问题上,Agent A与加入了AlphaProof的Agent B表现几乎在误差范围内相同。
相比之下,Agent D的优势主要体现在最困难的问题上(例如#125和#138),它能以2到5倍的成本优势完成证明。

对此,DeepMind将基础智能体的成功归因于两个关键因素:大语言模型自身能力的飞速提升,以及编译器反馈在锚定和纠正模型推理方面的强大作用。
这暗示了一个有趣的趋势:随着基础模型越来越强,今天需要复杂系统工程(进化算法、专用工具)才能高效解决的问题,未来可能一个朴素的“大语言模型+编译器”反馈循环就足够了。当然,前提是用对了模型——实验表明,单独运行AlphaProof或使用较小模型(如Gemini 3.0 Flash),这9道题一道也解不出来。

具体到成本,最便宜的一道题(#741(ii))中位成本仅5-7美元,最贵的(#152)也不过200-400美元。

跨界突破:从代数几何到凸优化
AlphaProof Nexus的“战绩”并不局限于埃尔德什问题。它在多个数学分支中都取得了实质性突破:
OEIS猜想:
代数几何:
凸优化:
图论:
加法组合学:
量子光学:

三路合围:数学研究范式正在重塑
2026年5月,AI在数学研究领域的能力,几乎同时从多个方向达到了前沿水平。
OpenAI走的是自然语言路线。
DeepMind走的是形式化验证路线。
自然语言路线灵活,但可能存在幻觉;形式化路线可靠,但门槛较高。而DeepMind的数学家合作者还发现了一个意料之外的收获:即使智能体最终未能证明目标定理,它生成的形式化证明尝试也极大地加深了人类专家对问题的理解。因为草稿是形式化的,专家可以直接聚焦于未解决的子目标,而不需要从头重新验证整个论证链。
换句话说,AI不只是在解题,它正在潜移默化地改变数学家思考和研究问题的方式。
如今,未来的图景已经逐渐清晰:AI先用自然语言灵活地探索证明思路和灵感,再用形式化系统逐步将思路固化为严谨、可验证的代码。而人类数学家的角色,则可能从“亲手推导每一步”转向“提出关键问题、审查研究方向、提炼深层洞见”。
AI先用自然语言探索证明思路,再用形式化系统逐步固化和验证。
人类数学家的角色,则从「亲手推导」转向「提出问题、审查方向、提炼洞见」。
有人说,我们正在目睹数学“奇点”的早期火花。几百美元的算力,几十小时的运行,56年的悬案就此告破,编译器给出了铁一般的证据。

保罗·埃尔德什生前留下了1217道数学难题,悬赏后人求解。他大概从未想过,有一天来“领赏”的,并非人类。