陶哲轩First Proof二期结果出炉，最低8美元1题，AI烧出7道论文级解法

来源：互联网时间：2026-06-12 14:32:44

陶哲轩又发成绩单了。

由他主导的

First Proof项目第二批评测结果

正式出炉。

和第一次一样，这次的核心规则没变：选取10道从未在网络上或期刊中公布过解法的前沿研究级数学新题，交给AI系统作答。

但第二次评测的标准，比第一次又往上提了一大截。

最大的变化是引入了一套专业且严格的评判机制——

双盲同行评议

。最终，经专家评定，

有7道题的AI解答达到学术发表标准

。

其中最亮眼的，当属Problem 5——一道关于随机偏微分方程的题目。AI给出的解法与人类完全不同，推导过程甚至得出了比人类解法更强的中间结论。

双盲同行评议

先说说题目来源。这次涉及的10道题，全部来自数学家真实研究中的新问题，覆盖范围之广令人印象深刻：可计算理论、离散几何（与经典的莫比乌斯带猜想相关）、离散概率、度量几何（本次测试中AI全军覆没的难题）、随机偏微分方程、格论、组合拓扑、拟阵与热带几何、代数组合、冯·诺依曼代数——整整十大方向。

和第一次一样，每道题的证明都从未在网络上或期刊中公开过。出题人中甚至包括Larry Guth这样的顶尖数学家。

第二轮最大的升级，就是这个

双盲同行评议机制

。不再让参赛方自己测试，全部由项目组统一操作。项目组找了30位数学专家，像期刊审稿一样盲审打分。评审只能看到提交的证明稿件，完全不知道作者是AI还是人类。

所有证明都按人类数学论文的标准审核，分为四档：

Essentially Flawless（基本无瑕疵）

：逻辑严谨，几乎不用修改就能直接发表；

Minor Revisions（小修）

：数学逻辑没问题，只是写错引用、表述啰嗦或存在小笔误；

Major Revisions（大修）

：大方向没错，但核心步骤有漏洞，需要专家花大力气补全；

Reject（拒稿）

：思路错误、关键证明造假或完全答非所问。

参与本次评测的共有4套AI系统：

System A：IMProofBench

以GPT-5.5 Pro为核心底座，同时可调用GPT-5.5、Gemini 3.1 Pro预览版、Claude Opus 4.7等多款大模型协同运算。

System B：UCLA Moonshot Harnes

由加州大学洛杉矶分校团队研发，出自陶哲轩团队之手，统一基于GPT-5.5 Pro搭建。

System C：OpenAI ChatGPT 5.5 Pro

OpenAI官方原生模型，测试过程中开启了最高等级推理模式。

System D：Princeton Momus

来自普林斯顿大学团队的推理系统，也是本次评测中备受关注的一套方案，底层依托Gemini 3.1 Pro预览版运行。

本轮测试采用“一题单次作答、无额外交互”的规则，所有系统在统一标准下完成答题。

成本最低8美元

综合39份有效AI解答的评审结果，全部10道难题中，有7道题目出现了达到发表标准的解答——即拿到了“近乎完美”或“小幅修改即可发表”的评级。

苏黎世联邦理工的System A表现尤为突出。在P5随机偏微分方程这道难题中，它跳出了人类的常规思路，用全新方法完成证明，推导出更强的结论。

此外，在第三题（离散概率）和第九题（代数组合）中，部分AI也给出了与人类解法截然不同的原创论证。而面对有成熟文献参考的题目，AI的优势更为明显。比如与经典莫比乌斯带猜想相关的P2离散几何题，三套AI都沿用了已有的研究思路顺利作答。在组合拓扑、格论等题型中，多套AI也交出了逻辑完整的答卷，仅在行文、格式等方面存在小问题。

当然，这次评测还重点统计了四套AI的调用成本与耗时。云服务器总成本不到35美元，几乎可以忽略不计，但模型调用费用的差距相当悬殊。

OpenAI原生ChatGPT 5.5 Pro的性价比最高，10道题总花费117美元，平均单题成本最低仅8美元，最贵的也不过16美元。该模型运行了5.8小时，是耗时最短的，但原创能力偏弱。

相比之下，普林斯顿团队的系统花费1014美元，运行7.8小时，投入产出比较低。解题能力最强的苏黎世联邦理工团队系统总费用达3186美元，单题最高花费951美元，运行时长达22.9小时。而陶哲轩所在的UCLA团队系统成本最高，共计4799美元，运行23.1小时，虽然稳定性尚可，但并未实现能力上的突破。

陶哲轩自己也认为，本轮整体表现未达预期，现存问题将作为后续优化方向。