AI奥数大奖出炉,英伟达14B摘桂冠
第二届人工智能数学奥林匹克竞赛(AIMO2)的结果,终于揭晓了。
作为大赛顾问委员会的成员,陶哲轩这次亲自宣布了最新战况——英伟达团队用AI成功解出了50道题中的34道。

这一届的50道测试题,延续了AIMO1的「数值答案」形式,但在「抗暴力破解」这一点上,难度明显加码了。
这场由Kaggle主办的比赛,规则也很明确:参赛者必须使用开源大语言模型,并且在有限的算力条件下,全靠AI自己解题。
目前最终成绩还处在审核阶段,不过从已有数据来看,冠军归属已经没什么悬念了。
英伟达的深度学习研究员透露,他们只靠一个14B的小模型,就拿下了第一。

更让人意外的是,这个微调后的14B模型,居然超越了405B的DeepSeek R1。

这背后,到底有什么门道?
英伟达团队摘桂冠,14B攻克34题
AIMO2每年评选5位获胜者,今年的第一名,就是英伟达的NemoSkills团队。

为了让这个成绩更直观,主办方还做了一个对照实验:用DeepSeek R1 405B,在同样的测试数据上,不限计算和时间。
结果呢?R1-405B的得分,大约只有20分。
而英伟达微调出来的14B模型,不仅参数规模小得多,还是在严格的时间和硬件限制下,拿下了惊人的34分。
这个模型基于Qwen-14B,在数百万合成数学测试集上做了微调,具备CoT推理能力。
最大的亮点在于推理的极致优化——只用了4个L4 GPU,在短短5小时内,就解决了50个问题中的34个。
目前他们还没有提交完整的解决方案,所以具体的技术细节,暂时还看不到。

这个团队一共7个人:Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

当然,除了英伟达,还有几支队伍的表现也相当亮眼。
清华拿下第二
第二名是一个来自清华和微软的三人团队,成员包括清华大学研究助理教授Foxfi Ning、微软高级研究员Zinan Lin,以及清华学子yiyouyc。



在公开排行榜上,他们一度拿到34/50,排名第一;私有排行榜上则以31/50的成绩位列第二。
最关键的是,在目前的前五名团队中,他们是唯一公开了解决方案的。
这次比赛一个核心要求,就是同时优化效率和推理性能。而他们公开的方案,主要由三部分组成:
第一部分是推理导向训练——通过监督微调和数据增强优化,提升模型的推理能力;
第二部分是效率优化——通过选择合适的推理引擎、权重量化和KV缓存量化,来提升推理效率;
第三部分是推理时策略——设计有效的提示语,进行自一致性聚合,在样本或问题级别上实施早停,并调整一些启发式超参数。
训练脚本基于Light-R1项目。

在本地验证环节,他们使用了AIME 2025测试集(30个问题)和参考集(10个问题),通过评估平均样本准确率和自一致性聚合的准确率,为解决方案的初期判断提供了依据。
第三名,Nokron,AI得分30,4年前加入Kaggle。

第四名,Søren Ra vn Andersen,AI得分29,10年前加入Kaggle。

第五名,来自浙江杭州的匿名选手,AI得分29,6年前加入Kaggle。

AIMO2比赛介绍
AIMO这比赛,究竟是什么来头?

这是第二届AIMO进步奖竞赛。第一届的冠军,早在2024年7月就被Project Numina团队拿走了。
到了第二届,奖金池增加了,题目数据集换成了全新的,算力支持也更充足,同时还更新了关于开源大语言模型的使用规则。
数学推理能力,可以说是人工智能发展的一个关键里程碑。无论是工程奇迹,还是复杂的金融模型,都离不开它。但说实话,目前AI在这方面的能力,还远远不够。
人工智能数学奥林匹克(AIMO)本身,就是一个总金额高达1000万美元的基金,目标很明确:激励开发者创造出能够与国际数学奥林匹克(IMO)顶尖选手相匹敌的开源AI模型。
本届竞赛包含了110道数学题目,涵盖代数、组合数学、几何和数论。和第一届相比,难度明显提升,大约达到了国家奥林匹克竞赛的水平。
这些题目在设计上还有一个特点:对AI来说,特别难。它们需要较强的数学推理能力,而且已经针对当前开源大语言模型的能力做过了测试。
为了避免训练数据和测试数据之间出现混淆,竞赛采用了国际解题团队全新创作的数学题目,确保了原创性。
评估方式
参赛者的提交结果,是根据预测答案与真实答案之间的准确率来评估的。简单说,排名依据就是预测答案和真实答案是否完全匹配。
每道题的真实答案,都是一个0到999之间的整数。
奖项设置
本届竞赛的总奖金,达到了211.7152万美元。
排名前五的团队,奖金分配如下:
第一名:26.2144万美元
第二名:13.1072万美元
第三名:6.5536万美元
第四名:3.2768万美元
第五名:1.6384万美元
除此之外,还有一个总体进步奖。这个奖项会颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。在前五名奖金分配后,剩余的奖金将全部归总体进步奖得主所有。
如果某个团队拿到了总体进步奖,奖金将至少达到158.9248万美元。
当然,如果本届竞赛没有团队达到这个标准,剩余奖金就会滚入下一届,奖金额度和分配规则保持不变。
代码要求
所有提交必须通过Notebook完成。提交按钮激活后,需要满足以下条件:
CPU Notebook运行时间 ≤ 9小时
GPU Notebook运行时间 ≤ 5小时
禁用互联网访问
允许使用免费且公开的外部数据,包括预训练模型