首页 > 教程攻略 > ai资讯 >用国产GPU训练AI给自己写内核，摩尔线程刷榜硬核基准

用国产GPU训练AI给自己写内核，摩尔线程刷榜硬核基准

来源：互联网时间：2026-06-16 13:15:16

国产算力生态的硬核难题，终于有了AI新解法

过去很长一段时间，大家讨论国产AI算力，常会提到“卡脖子”的问题，尤其是底层GPU的内核优化。这不仅需要顶尖的芯片设计，更离不开高效的底层软件栈。而现在，一个有意思的突破出现了。

在最近一项名为KernelBench的硬核基准测试上——这个测试的核心就是看谁能用AI生成最高效的GPU核心代码——摩尔线程的模型直接拿下了第一名。更关键的是，在MooreEval执行式验证协议的加持下，他们的 MusaCoder-27B-RL 展现出了肉眼可见的领先优势，甚至超越了包括Claude Opus、GLM-5.1、Kimi K2.6在内的不少国内外头部模型。

这款上周才正式开源公布的大模型，叫作 MusaCoder。它的定位非常明确：一个专门面向GPU底层算子生成的专用大模型。开发者可以直接拿它把PyTorch代码自动转换成CUDA或MUSA内核，说白了，就是让AI来帮你写那些真正决定性能的底层代码，从而为AI训练等任务加速。这实际上是在动手解决一个非常痛的痛点：开发者写底层GPU算子的门槛太高了。

论文：《MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU》
论文地址：http://arxiv.org/abs/2606.04847
模型权重：https://huggingface.co/MooreThreads/MusaCoder-27B

最值得关注的，其实是它背后的“国产”底色。MusaCoder是业内第一个完全基于国产GPU算力底座完成全链路训练与验证的开源代码大模型。从数据训练到最终交付，后训练流程全都是在基于MTT S5000的夸娥智算集群上完成的。意味着从模型到硬件，全部打上了“中国制造”的标签，这算得上是国产AI算力领域一次难得的纵深突破。

不止是“写出来”，更要“反赌”

用AI生成GPU内核（Kernel），一直是被视为大语言模型最“硬核”的挑战之一。这不是普通代码生成，它不光要走通语法，更要在硬件上真正跑出性能来。

KernelBench这个测试由斯坦福和普林斯顿在2025年共同推出，它本质上是一个“真实的工程环境”，专门用来衡量大模型能不能写出高效且能真正提升程序加速比的GPU内核代码。核心任务翻译过来就是：给你一个PyTorch模型，你要生成一个定制的、内嵌C/C++的CUDA内核，去替换原有的PyTorch算子——目标很纯粹，就是让程序跑得更快。

正因为如此，与其他代码生成验证不同，KernelBench不光看你的内核能不能正确运行，更看重你写出来的代码和基准相比，到底带来了多少真实的性能提升。不能用的代码自然不行，但能用却跑得不快的同样没有价值。

客观来说，让AI能够自动化写好这些底层代码，确实是打破当前AI算力瓶颈的关键一环。一旦突破，大家面临的算力成本和能效问题，都能更快找到实际可用的工具。

为了全方位地评估模型，KernelBench包含的项目达到了250个以上，横跨4个递进难度的级别：从Level 1的核心基础算子如卷积、矩阵乘法、归一化开始，一直到Level 4——那些来自Hugging Face上的生产级模型优化任务。最难的地方在于，它还有一套极其严厉的验证流水线。一个项目要能通过，必须经历三阶段：编译检查、正确性检测、性能测试，而且它给你的代码设定了加速比的阈值——达不到，就不算过。所以你能想象，AI生成的代码光“正确”远远不够，必须真正有实际提速价值才行。

我们来看看实际结果。就在几个月前，DeepSeek R1这种顶尖大模型在最简单的Level 1任务上，通过率也只有30%。而且注意，这还只是“能编译运行”的比例，不加任何性能要求。MusaCoder现在直接把整体通过率干到了88.6%，而且它超越的每一个对手，都是业界公认以代码能力著称的模型。从论文里的数据看，在Level 1到Level 3的范围内，MusaCoder不仅能写出能用的代码，很多甚至还做到了“好用”——性能至少比基线快上1.1倍。

那么，一款只有270亿参数的“小模型”，是如何打败众多千亿、万亿参数大模型的？秘诀藏在它的设计方法论里。

以小博大的秘密：MooreEval执行式验证协议

GPU内核的编写，对并行计算、线程组织、内存访问的理解要求极高。这和写普通脚本是两回事。代码要写得对，还要能过编译，最关键的是，在真实跑起来时一定要把硬件潜力榨干。这就需要一种专门的“考试系统”和“训练方法”。

摩尔线程为此设计了一套“全栈训练”方案，其中最关键的一环，就是叫

MooreEval执行式验证协议

的东西。你可以把它想象成一个专门为GPU内核设计的高水平“评审官”。它不是简单地比代码的文本相似度，而是真的去编译、运行、检测性能，然后打出精准的分数。

MooreEval的工作流是这样的：每个模型生成的候选内核代码，都会经历层层关卡：接口检查、编译检查、正确性验证、反作弊检测、最后才是性能对擂。每一关过了才能往下走。经过层层筛选的代码，还会根据一套层次化的奖励计算分数，连带着各种结构化的诊断结果一起，被转换成模型能“读懂”的自然语言反馈，再被吸纳到后续训练里。

更难能可贵的是，为了能支持强化学习中的海量代码并发编译与执行，MooreEval被设计成了一个分布式异步流水线系统。它把CPU密集的编译和GPU密集的执行解耦开来，各自独立伸缩，从而避免了GPU在等待编译时发生的闲置。正是这种工程上的巧妙，才让MusaCoder这种“后起之秀”跑出了漂亮的数据。

让AI“真懂内核”的全栈训练体系

当然，MooreEval只是整个体系的一部分。MusaCoder真正的功力，来源于背后一整套精心设计的后训练流程。这包含了面向Kernel语料库的构建、数据增强、监督微调（SFT）、强化学习微调（RFT），以及几项特别的稳定机制。

为了让模型真正学懂怎么设计GPU内核，研究人员设计了一个三阶段的数据合成流水线：

第一阶段：利用GitHub上的真实代码和NNSmith自动生成的图，先搭起一个庞大的PyTorch-CUDA/MUSA任务集，打好GPU编程基础。
第二阶段：注入结构化的推理能力，让模型显式地去理解张量的形状、内存布局和索引关系。这个阶段的训练目标是：模型不光知道“要做什么”，还得想明白“该怎么做”。
第三阶段：增加多轮交互与反馈循环。比如让它接收编译错误、运行时报错、性能瓶颈等反馈，然后据此进行修改和优化。这种“模拟”强化学习中的多轮修复局面，能极大地缓解奖励信号稀疏的问题。

这几招其实挺聪明的——它不是在教模型死记硬背代码，而是在教它“怎么思考”。

更有意思的是，为了解决强化学习在这么高门槛任务上的稳定性问题，MusaCoder还引入了三项“独门武器”：

PrimeEcho
：这是核心。为了防止模型为了追求及格而过度依赖多轮反馈中的“小聪明”，PrimeEcho制定了一个新的奖励公式。它把首轮生成的质量和整个多轮过程中最好的表现按比例加权——意思是鼓励模型一出手就要足够好，修复只是锦上添花，不能成了主心骨。
缓冲动态重试
：在GPU内核生成这种高难度任务里，正样本的稀缺是经典难题。BDR的做法是，当某个任务彻底“砸锅”了，它把任务描述、失败代码和报错打包成一个新任务，放进一个“动态缓存池”。模型会以一个较低的概率去捞这种任务，来学习怎么自我修复。这等于是在原本没有学习价值的失败中硬生生“榨”出了信号。
MirrorPop
：这个用来对抗训练过程中的稳定性问题。它会像一个更精准的筛子，把那些“风险很高”的样本提前踢出去，防止模型在错误的道路上越走越远。

实验数据也证实了，这三大机制的介入，带来了显著的性能飞跃。

全栈国产化背后的突破意义

如果跳出具体的技术参数来看，MusaCoder的诞生，其故事本身已经在说着什么。

一个高质量的AI模型构建，本质上就是硬件和软件栈的深度磨合。这需要编译栈的兼容性、运行时稳定性、调度系统低延迟，以及评测基础设施的鲁棒性。能从监督微调一路走到强化学习，并且

整个流程全部跑在摩尔线程自家的夸娥智算集群上

，这件事本身的信号意义就很强：它证明了国产GPU集群已经具备承载这类复杂、动态的交互式训练任务的能力。

它破了我心中一个很顽固的刻板印象：不少人在提到国产AI算力时，总觉得它只能勉强跑跑推理，至于训练，尤其是训练这种高难度的代码生成大模型，没指望。但MusaCoder用真实成果告诉大家，国产硬件已经从“可用”走到了“好用”的阶段。而且，它还提供了一个非常有参考价值的工程范式，一旦形成可复用的路径，未来更多复杂的AI研发，就有迹可循。

在大模型时代，“自主可控”四个字的份量，早已不止是芯片制造。它还包括上层的软件栈、训练平台、评测体系以及开源的模型生态。MusaCoder的出现，说明在这些层面，国产力量已经能形成完整的闭环。对开发者而言，一个能直接从PyTorch自动生成高性能MUSA内核的基础模型，其实已经打开了另一扇大门。

也许用不了多久，在国产算力上实现底层加速这件事，会变得像用AI写普通代码一样简单。