首页 > 教程攻略 > ai资讯 >用国产GPU训练AI给自己写内核,摩尔线程刷榜硬核基准

用国产GPU训练AI给自己写内核,摩尔线程刷榜硬核基准

来源:互联网 时间:2026-06-16 13:15:16

国产算力生态的硬核难题,终于有了AI新解法

过去很长一段时间,大家讨论国产AI算力,常会提到“卡脖子”的问题,尤其是底层GPU的内核优化。这不仅需要顶尖的芯片设计,更离不开高效的底层软件栈。而现在,一个有意思的突破出现了。

在最近一项名为KernelBench的硬核基准测试上——这个测试的核心就是看谁能用AI生成最高效的GPU核心代码——摩尔线程的模型直接拿下了第一名。更关键的是,在MooreEval执行式验证协议的加持下,他们的 MusaCoder-27B-RL 展现出了肉眼可见的领先优势,甚至超越了包括Claude Opus、GLM-5.1、Kimi K2.6在内的不少国内外头部模型。

用国产GPU训练AI给自己写内核,摩尔线程刷榜硬核基准

这款上周才正式开源公布的大模型,叫作 MusaCoder。它的定位非常明确:一个专门面向GPU底层算子生成的专用大模型。开发者可以直接拿它把PyTorch代码自动转换成CUDA或MUSA内核,说白了,就是让AI来帮你写那些真正决定性能的底层代码,从而为AI训练等任务加速。这实际上是在动手解决一个非常痛的痛点:开发者写底层GPU算子的门槛太高了。

  • 论文:《MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU》
  • 论文地址:http://arxiv.org/abs/2606.04847
  • 模型权重:https://huggingface.co/MooreThreads/MusaCoder-27B

最值得关注的,其实是它背后的“国产”底色。MusaCoder是业内第一个完全基于国产GPU算力底座完成全链路训练与验证的开源代码大模型。从数据训练到最终交付,后训练流程全都是在基于MTT S5000的夸娥智算集群上完成的。意味着从模型到硬件,全部打上了“中国制造”的标签,这算得上是国产AI算力领域一次难得的纵深突破。

不止是“写出来”,更要“反赌”

用AI生成GPU内核(Kernel),一直是被视为大语言模型最“硬核”的挑战之一。这不是普通代码生成,它不光要走通语法,更要在硬件上真正跑出性能来。

KernelBench这个测试由斯坦福和普林斯顿在2025年共同推出,它本质上是一个“真实的工程环境”,专门用来衡量大模型能不能写出高效且能真正提升程序加速比的GPU内核代码。核心任务翻译过来就是:给你一个PyTorch模型,你要生成一个定制的、内嵌C/C++的CUDA内核,去替换原有的PyTorch算子——目标很纯粹,就是让程序跑得更快。

正因为如此,与其他代码生成验证不同,KernelBench不光看你的内核能不能正确运行,更看重你写出来的代码和基准相比,到底带来了多少真实的性能提升。不能用的代码自然不行,但能用却跑得不快的同样没有价值。

客观来说,让AI能够自动化写好这些底层代码,确实是打破当前AI算力瓶颈的关键一环。一旦突破,大家面临的算力成本和能效问题,都能更快找到实际可用的工具。

为了全方位地评估模型,KernelBench包含的项目达到了250个以上,横跨4个递进难度的级别:从Level 1的核心基础算子如卷积、矩阵乘法、归一化开始,一直到Level 4——那些来自Hugging Face上的生产级模型优化任务。最难的地方在于,它还有一套极其严厉的验证流水线。一个项目要能通过,必须经历三阶段:编译检查、正确性检测、性能测试,而且它给你的代码设定了加速比的阈值——达不到,就不算过。所以你能想象,AI生成的代码光“正确”远远不够,必须真正有实际提速价值才行。

我们来看看实际结果。就在几个月前,DeepSeek R1这种顶尖大模型在最简单的Level 1任务上,通过率也只有30%。而且注意,这还只是“能编译运行”的比例,不加任何性能要求。MusaCoder现在直接把整体通过率干到了88.6%,而且它超越的每一个对手,都是业界公认以代码能力著称的模型。从论文里的数据看,在Level 1到Level 3的范围内,MusaCoder不仅能写出能用的代码,很多甚至还做到了“好用”——性能至少比基线快上1.1倍。

那么,一款只有270亿参数的“小模型”,是如何打败众多千亿、万亿参数大模型的?秘诀藏在它的设计方法论里。

以小博大的秘密:MooreEval执行式验证协议

GPU内核的编写,对并行计算、线程组织、内存访问的理解要求极高。这和写普通脚本是两回事。代码要写得对,还要能过编译,最关键的是,在真实跑起来时一定要把硬件潜力榨干。这就需要一种专门的“考试系统”和“训练方法”。

摩尔线程为此设计了一套“全栈训练”方案,其中最关键的一环,就是叫

MooreEval执行式验证协议

的东西。你可以把它想象成一个专门为GPU内核设计的高水平“评审官”。它不是简单地比代码的文本相似度,而是真的去编译、运行、检测性能,然后打出精准的分数。

MooreEval的工作流是这样的:每个模型生成的候选内核代码,都会经历层层关卡:接口检查、编译检查、正确性验证、反作弊检测、最后才是性能对擂。每一关过了才能往下走。经过层层筛选的代码,还会根据一套层次化的奖励计算分数,连带着各种结构化的诊断结果一起,被转换成模型能“读懂”的自然语言反馈,再被吸纳到后续训练里。

更难能可贵的是,为了能支持强化学习中的海量代码并发编译与执行,MooreEval被设计成了一个分布式异步流水线系统。它把CPU密集的编译和GPU密集的执行解耦开来,各自独立伸缩,从而避免了GPU在等待编译时发生的闲置。正是这种工程上的巧妙,才让MusaCoder这种“后起之秀”跑出了漂亮的数据。

让AI“真懂内核”的全栈训练体系

当然,MooreEval只是整个体系的一部分。MusaCoder真正的功力,来源于背后一整套精心设计的后训练流程。这包含了面向Kernel语料库的构建、数据增强、监督微调(SFT)、强化学习微调(RFT),以及几项特别的稳定机制。

为了让模型真正学懂怎么设计GPU内核,研究人员设计了一个三阶段的数据合成流水线:

  • 第一阶段:利用GitHub上的真实代码和NNSmith自动生成的图,先搭起一个庞大的PyTorch-CUDA/MUSA任务集,打好GPU编程基础。

  • 第二阶段:注入结构化的推理能力,让模型显式地去理解张量的形状、内存布局和索引关系。这个阶段的训练目标是:模型不光知道“要做什么”,还得想明白“该怎么做”。

  • 第三阶段:增加多轮交互与反馈循环。比如让它接收编译错误、运行时报错、性能瓶颈等反馈,然后据此进行修改和优化。这种“模拟”强化学习中的多轮修复局面,能极大地缓解奖励信号稀疏的问题。

这几招其实挺聪明的——它不是在教模型死记硬背代码,而是在教它“怎么思考”。

更有意思的是,为了解决强化学习在这么高门槛任务上的稳定性问题,MusaCoder还引入了三项“独门武器”:

  • PrimeEcho

    :这是核心。为了防止模型为了追求及格而过度依赖多轮反馈中的“小聪明”,PrimeEcho制定了一个新的奖励公式。它把首轮生成的质量和整个多轮过程中最好的表现按比例加权——意思是鼓励模型一出手就要足够好,修复只是锦上添花,不能成了主心骨。

  • 缓冲动态重试

    :在GPU内核生成这种高难度任务里,正样本的稀缺是经典难题。BDR的做法是,当某个任务彻底“砸锅”了,它把任务描述、失败代码和报错打包成一个新任务,放进一个“动态缓存池”。模型会以一个较低的概率去捞这种任务,来学习怎么自我修复。这等于是在原本没有学习价值的失败中硬生生“榨”出了信号。

  • MirrorPop

    :这个用来对抗训练过程中的稳定性问题。它会像一个更精准的筛子,把那些“风险很高”的样本提前踢出去,防止模型在错误的道路上越走越远。

实验数据也证实了,这三大机制的介入,带来了显著的性能飞跃。

全栈国产化背后的突破意义

如果跳出具体的技术参数来看,MusaCoder的诞生,其故事本身已经在说着什么。

一个高质量的AI模型构建,本质上就是硬件和软件栈的深度磨合。这需要编译栈的兼容性、运行时稳定性、调度系统低延迟,以及评测基础设施的鲁棒性。能从监督微调一路走到强化学习,并且

整个流程全部跑在摩尔线程自家的夸娥智算集群上

,这件事本身的信号意义就很强:它证明了国产GPU集群已经具备承载这类复杂、动态的交互式训练任务的能力。

它破了我心中一个很顽固的刻板印象:不少人在提到国产AI算力时,总觉得它只能勉强跑跑推理,至于训练,尤其是训练这种高难度的代码生成大模型,没指望。但MusaCoder用真实成果告诉大家,国产硬件已经从“可用”走到了“好用”的阶段。而且,它还提供了一个非常有参考价值的工程范式,一旦形成可复用的路径,未来更多复杂的AI研发,就有迹可循。

在大模型时代,“自主可控”四个字的份量,早已不止是芯片制造。它还包括上层的软件栈、训练平台、评测体系以及开源的模型生态。MusaCoder的出现,说明在这些层面,国产力量已经能形成完整的闭环。对开发者而言,一个能直接从PyTorch自动生成高性能MUSA内核的基础模型,其实已经打开了另一扇大门。

也许用不了多久,在国产算力上实现底层加速这件事,会变得像用AI写普通代码一样简单。