首页

手游

资讯

专题

首页 > 教程攻略 > ai教程 >AI奥数大奖出炉，英伟达14B摘桂冠

AI奥数大奖出炉，英伟达14B摘桂冠

来源：互联网时间：2026-06-26 07:15:22

第二届人工智能数学奥林匹克竞赛（AIMO2）的结果，终于揭晓了。

作为大赛顾问委员会的成员，陶哲轩这次亲自宣布了最新战况——英伟达团队用AI成功解出了50道题中的34道。

这一届的50道测试题，延续了AIMO1的「数值答案」形式，但在「抗暴力破解」这一点上，难度明显加码了。

这场由Kaggle主办的比赛，规则也很明确：参赛者必须使用开源大语言模型，并且在有限的算力条件下，全靠AI自己解题。

目前最终成绩还处在审核阶段，不过从已有数据来看，冠军归属已经没什么悬念了。

英伟达的深度学习研究员透露，他们只靠一个14B的小模型，就拿下了第一。

更让人意外的是，这个微调后的14B模型，居然超越了405B的DeepSeek R1。

这背后，到底有什么门道？

英伟达团队摘桂冠，14B攻克34题

AIMO2每年评选5位获胜者，今年的第一名，就是英伟达的NemoSkills团队。

为了让这个成绩更直观，主办方还做了一个对照实验：用DeepSeek R1 405B，在同样的测试数据上，不限计算和时间。

结果呢？R1-405B的得分，大约只有20分。

而英伟达微调出来的14B模型，不仅参数规模小得多，还是在严格的时间和硬件限制下，拿下了惊人的34分。

这个模型基于Qwen-14B，在数百万合成数学测试集上做了微调，具备CoT推理能力。

最大的亮点在于推理的极致优化——只用了4个L4 GPU，在短短5小时内，就解决了50个问题中的34个。

目前他们还没有提交完整的解决方案，所以具体的技术细节，暂时还看不到。

这个团队一共7个人：Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

当然，除了英伟达，还有几支队伍的表现也相当亮眼。

清华拿下第二

第二名是一个来自清华和微软的三人团队，成员包括清华大学研究助理教授Foxfi Ning、微软高级研究员Zinan Lin，以及清华学子yiyouyc。

在公开排行榜上，他们一度拿到34/50，排名第一；私有排行榜上则以31/50的成绩位列第二。

最关键的是，在目前的前五名团队中，他们是唯一公开了解决方案的。

这次比赛一个核心要求，就是同时优化效率和推理性能。而他们公开的方案，主要由三部分组成：

第一部分是推理导向训练——通过监督微调和数据增强优化，提升模型的推理能力；

第二部分是效率优化——通过选择合适的推理引擎、权重量化和KV缓存量化，来提升推理效率；

第三部分是推理时策略——设计有效的提示语，进行自一致性聚合，在样本或问题级别上实施早停，并调整一些启发式超参数。

训练脚本基于Light-R1项目。

在本地验证环节，他们使用了AIME 2025测试集（30个问题）和参考集（10个问题），通过评估平均样本准确率和自一致性聚合的准确率，为解决方案的初期判断提供了依据。

第三名，Nokron，AI得分30，4年前加入Kaggle。

第四名，Søren Ra vn Andersen，AI得分29，10年前加入Kaggle。

第五名，来自浙江杭州的匿名选手，AI得分29，6年前加入Kaggle。

AIMO2比赛介绍

AIMO这比赛，究竟是什么来头？

这是第二届AIMO进步奖竞赛。第一届的冠军，早在2024年7月就被Project Numina团队拿走了。

到了第二届，奖金池增加了，题目数据集换成了全新的，算力支持也更充足，同时还更新了关于开源大语言模型的使用规则。

数学推理能力，可以说是人工智能发展的一个关键里程碑。无论是工程奇迹，还是复杂的金融模型，都离不开它。但说实话，目前AI在这方面的能力，还远远不够。

人工智能数学奥林匹克（AIMO）本身，就是一个总金额高达1000万美元的基金，目标很明确：激励开发者创造出能够与国际数学奥林匹克（IMO）顶尖选手相匹敌的开源AI模型。

本届竞赛包含了110道数学题目，涵盖代数、组合数学、几何和数论。和第一届相比，难度明显提升，大约达到了国家奥林匹克竞赛的水平。

这些题目在设计上还有一个特点：对AI来说，特别难。它们需要较强的数学推理能力，而且已经针对当前开源大语言模型的能力做过了测试。

为了避免训练数据和测试数据之间出现混淆，竞赛采用了国际解题团队全新创作的数学题目，确保了原创性。

评估方式

参赛者的提交结果，是根据预测答案与真实答案之间的准确率来评估的。简单说，排名依据就是预测答案和真实答案是否完全匹配。

每道题的真实答案，都是一个0到999之间的整数。

奖项设置

本届竞赛的总奖金，达到了211.7152万美元。

排名前五的团队，奖金分配如下：

第一名：26.2144万美元

第二名：13.1072万美元

第三名：6.5536万美元

第四名：3.2768万美元

第五名：1.6384万美元

除此之外，还有一个总体进步奖。这个奖项会颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。在前五名奖金分配后，剩余的奖金将全部归总体进步奖得主所有。

如果某个团队拿到了总体进步奖，奖金将至少达到158.9248万美元。

当然，如果本届竞赛没有团队达到这个标准，剩余奖金就会滚入下一届，奖金额度和分配规则保持不变。

代码要求

所有提交必须通过Notebook完成。提交按钮激活后，需要满足以下条件：

CPU Notebook运行时间 ≤ 9小时

GPU Notebook运行时间 ≤ 5小时

禁用互联网访问

允许使用免费且公开的外部数据，包括预训练模型