陶哲轩First Proof二期结果出炉,最低8美元1题,AI烧出7道论文级解法
陶哲轩又发成绩单了。
由他主导的
First Proof项目第二批评测结果

和第一次一样,这次的核心规则没变:选取10道从未在网络上或期刊中公布过解法的前沿研究级数学新题,交给AI系统作答。
但第二次评测的标准,比第一次又往上提了一大截。
最大的变化是引入了一套专业且严格的评判机制——
双盲同行评议
有7道题的AI解答达到学术发表标准

其中最亮眼的,当属Problem 5——一道关于随机偏微分方程的题目。AI给出的解法与人类完全不同,推导过程甚至得出了比人类解法更强的中间结论。
双盲同行评议
双盲同行评议
先说说题目来源。这次涉及的10道题,全部来自数学家真实研究中的新问题,覆盖范围之广令人印象深刻:可计算理论、离散几何(与经典的莫比乌斯带猜想相关)、离散概率、度量几何(本次测试中AI全军覆没的难题)、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯·诺依曼代数——整整十大方向。

和第一次一样,每道题的证明都从未在网络上或期刊中公开过。出题人中甚至包括Larry Guth这样的顶尖数学家。

第二轮最大的升级,就是这个
双盲同行评议机制
所有证明都按人类数学论文的标准审核,分为四档:
Essentially Flawless(基本无瑕疵)
Minor Revisions(小修)
Major Revisions(大修)
Reject(拒稿)
参与本次评测的共有4套AI系统:
System A:IMProofBench
以GPT-5.5 Pro为核心底座,同时可调用GPT-5.5、Gemini 3.1 Pro预览版、Claude Opus 4.7等多款大模型协同运算。
System B:UCLA Moonshot Harnes
由加州大学洛杉矶分校团队研发,出自陶哲轩团队之手,统一基于GPT-5.5 Pro搭建。
System C:OpenAI ChatGPT 5.5 Pro
OpenAI官方原生模型,测试过程中开启了最高等级推理模式。
System D:Princeton Momus
来自普林斯顿大学团队的推理系统,也是本次评测中备受关注的一套方案,底层依托Gemini 3.1 Pro预览版运行。
本轮测试采用“一题单次作答、无额外交互”的规则,所有系统在统一标准下完成答题。

成本最低8美元
成本最低8美元
综合39份有效AI解答的评审结果,全部10道难题中,有7道题目出现了达到发表标准的解答——即拿到了“近乎完美”或“小幅修改即可发表”的评级。
苏黎世联邦理工的System A表现尤为突出。在P5随机偏微分方程这道难题中,它跳出了人类的常规思路,用全新方法完成证明,推导出更强的结论。

此外,在第三题(离散概率)和第九题(代数组合)中,部分AI也给出了与人类解法截然不同的原创论证。而面对有成熟文献参考的题目,AI的优势更为明显。比如与经典莫比乌斯带猜想相关的P2离散几何题,三套AI都沿用了已有的研究思路顺利作答。在组合拓扑、格论等题型中,多套AI也交出了逻辑完整的答卷,仅在行文、格式等方面存在小问题。
当然,这次评测还重点统计了四套AI的调用成本与耗时。云服务器总成本不到35美元,几乎可以忽略不计,但模型调用费用的差距相当悬殊。

OpenAI原生ChatGPT 5.5 Pro的性价比最高,10道题总花费117美元,平均单题成本最低仅8美元,最贵的也不过16美元。该模型运行了5.8小时,是耗时最短的,但原创能力偏弱。
相比之下,普林斯顿团队的系统花费1014美元,运行7.8小时,投入产出比较低。解题能力最强的苏黎世联邦理工团队系统总费用达3186美元,单题最高花费951美元,运行时长达22.9小时。而陶哲轩所在的UCLA团队系统成本最高,共计4799美元,运行23.1小时,虽然稳定性尚可,但并未实现能力上的突破。
陶哲轩自己也认为,本轮整体表现未达预期,现存问题将作为后续优化方向。

至于后续安排,也已经明确:8至10月将开展First Proof项目第三批正式评测,评测规则沿用第二批次标准。
只能说,First Proof,确实是AI数学最严厉的母亲。