首页 > 教程攻略 > ai教程 >AI奥数大奖出炉,英伟达14B摘桂冠

AI奥数大奖出炉,英伟达14B摘桂冠

来源:互联网 时间:2026-06-26 07:15:22

第二届人工智能数学奥林匹克竞赛(AIMO2)的结果,终于揭晓了。

作为大赛顾问委员会的成员,陶哲轩这次亲自宣布了最新战况——英伟达团队用AI成功解出了50道题中的34道。

这一届的50道测试题,延续了AIMO1的「数值答案」形式,但在「抗暴力破解」这一点上,难度明显加码了。

这场由Kaggle主办的比赛,规则也很明确:参赛者必须使用开源大语言模型,并且在有限的算力条件下,全靠AI自己解题。

目前最终成绩还处在审核阶段,不过从已有数据来看,冠军归属已经没什么悬念了。

英伟达的深度学习研究员透露,他们只靠一个14B的小模型,就拿下了第一。

更让人意外的是,这个微调后的14B模型,居然超越了405B的DeepSeek R1。

这背后,到底有什么门道?

英伟达团队摘桂冠,14B攻克34题

AIMO2每年评选5位获胜者,今年的第一名,就是英伟达的NemoSkills团队。

为了让这个成绩更直观,主办方还做了一个对照实验:用DeepSeek R1 405B,在同样的测试数据上,不限计算和时间。

结果呢?R1-405B的得分,大约只有20分。

而英伟达微调出来的14B模型,不仅参数规模小得多,还是在严格的时间和硬件限制下,拿下了惊人的34分。

这个模型基于Qwen-14B,在数百万合成数学测试集上做了微调,具备CoT推理能力。

最大的亮点在于推理的极致优化——只用了4个L4 GPU,在短短5小时内,就解决了50个问题中的34个。

目前他们还没有提交完整的解决方案,所以具体的技术细节,暂时还看不到。

这个团队一共7个人:Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

当然,除了英伟达,还有几支队伍的表现也相当亮眼。

清华拿下第二

第二名是一个来自清华和微软的三人团队,成员包括清华大学研究助理教授Foxfi Ning、微软高级研究员Zinan Lin,以及清华学子yiyouyc。

在公开排行榜上,他们一度拿到34/50,排名第一;私有排行榜上则以31/50的成绩位列第二。

最关键的是,在目前的前五名团队中,他们是唯一公开了解决方案的。

这次比赛一个核心要求,就是同时优化效率和推理性能。而他们公开的方案,主要由三部分组成:

第一部分是推理导向训练——通过监督微调和数据增强优化,提升模型的推理能力;

第二部分是效率优化——通过选择合适的推理引擎、权重量化和KV缓存量化,来提升推理效率;

第三部分是推理时策略——设计有效的提示语,进行自一致性聚合,在样本或问题级别上实施早停,并调整一些启发式超参数。

训练脚本基于Light-R1项目。

在本地验证环节,他们使用了AIME 2025测试集(30个问题)和参考集(10个问题),通过评估平均样本准确率和自一致性聚合的准确率,为解决方案的初期判断提供了依据。

第三名,Nokron,AI得分30,4年前加入Kaggle。

第四名,Søren Ra vn Andersen,AI得分29,10年前加入Kaggle。

第五名,来自浙江杭州的匿名选手,AI得分29,6年前加入Kaggle。

AIMO2比赛介绍

AIMO这比赛,究竟是什么来头?

这是第二届AIMO进步奖竞赛。第一届的冠军,早在2024年7月就被Project Numina团队拿走了。

到了第二届,奖金池增加了,题目数据集换成了全新的,算力支持也更充足,同时还更新了关于开源大语言模型的使用规则。

数学推理能力,可以说是人工智能发展的一个关键里程碑。无论是工程奇迹,还是复杂的金融模型,都离不开它。但说实话,目前AI在这方面的能力,还远远不够。

人工智能数学奥林匹克(AIMO)本身,就是一个总金额高达1000万美元的基金,目标很明确:激励开发者创造出能够与国际数学奥林匹克(IMO)顶尖选手相匹敌的开源AI模型。

本届竞赛包含了110道数学题目,涵盖代数、组合数学、几何和数论。和第一届相比,难度明显提升,大约达到了国家奥林匹克竞赛的水平。

这些题目在设计上还有一个特点:对AI来说,特别难。它们需要较强的数学推理能力,而且已经针对当前开源大语言模型的能力做过了测试。

为了避免训练数据和测试数据之间出现混淆,竞赛采用了国际解题团队全新创作的数学题目,确保了原创性。

评估方式

参赛者的提交结果,是根据预测答案与真实答案之间的准确率来评估的。简单说,排名依据就是预测答案和真实答案是否完全匹配。

每道题的真实答案,都是一个0到999之间的整数。

奖项设置

本届竞赛的总奖金,达到了211.7152万美元。

排名前五的团队,奖金分配如下:

第一名:26.2144万美元

第二名:13.1072万美元

第三名:6.5536万美元

第四名:3.2768万美元

第五名:1.6384万美元

除此之外,还有一个总体进步奖。这个奖项会颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。在前五名奖金分配后,剩余的奖金将全部归总体进步奖得主所有。

如果某个团队拿到了总体进步奖,奖金将至少达到158.9248万美元。

当然,如果本届竞赛没有团队达到这个标准,剩余奖金就会滚入下一届,奖金额度和分配规则保持不变。

代码要求

所有提交必须通过Notebook完成。提交按钮激活后,需要满足以下条件:

CPU Notebook运行时间 ≤ 9小时

GPU Notebook运行时间 ≤ 5小时

禁用互联网访问

允许使用免费且公开的外部数据,包括预训练模型

相关下载