Day-0支持|摩尔线程率先完成MiniMax M3大模型适配
这两天AI圈有个挺有意思的动向:6月12日,MiniMax把他们的新一代原生多模态旗舰模型M3直接开源了。而几乎就在同一天,摩尔线程的旗舰级AI训推一体智算卡MTT S5000就完成了对该模型的Day-0极速适配。这意味着国产大模型与国产算力芯片的协同又往前推了一步,也侧面展示了摩尔线程靠原生FP8算力底座加上MUSA软件生态,确实能对前沿大模型的需求做到即时响应和稳定支撑。
MiniMax M3开源地址(Hugging Face):
https://huggingface.co/MiniMaxAI/MiniMax-M3
开发者镜像下载地址(可直接开箱体验):
registry.mthreads.com/mcconline/inference/vllm:v0.20.0-ph1-4.3.5-torch2.9-20260605-mtcc51
这款模型在国内算是个独一份的存在:它是目前唯一同时具备前沿Coding & Agentic能力、超长上下文、并且原生就是多模态的开源大模型。简单说,它是第一个把完整的frontier能力带进开放世界的模型。背后基于自研的MSA(MiniMax Sparse Attention)架构,上下文窗口可以扩展到1M级别。在BrowseComp、SWE-Bench Pro这些国际权威评测里,其表现也达到了前沿水平。值得注意的是,M3从一开始就重构了整个数据管线,从第零步就开始做多模态训练,所以文本和视觉的语义空间对齐度非常高。

图示:MiniMax M3的Coding & Agentic能力在软件工程、终端执行、工具调用等多维度权威评测中达到前沿水平。
针对M3的核心技术特性,MTT S5000从硬件算力、软件栈到开源框架做了全链路的精准匹配和深度优化,具体体现在三个层面:
支撑超长上下文:高密度算力与大显存提供坚实支撑
MSA架构带来的超长上下文窗口,对推理阶段KV Cache的存储和访存带宽要求非常高。MTT S5000这边硬件级原生FP8加速,单卡AI算力(稠密)达到1000 TFLOPS;同时配备了80GB大容量显存和1.6TB/s的超高带宽。这样的配置给百万token级长序列提供了充足的缓存空间和数据吞吐能力。另外,借助MUSA C++和Triton-MUSA等抽象层,M3的新算子结构能快速迁移,确保摩尔线程平台可以迅速完成架构适配。
赋能前沿Coding与Agentic能力:实现低延迟、高吞吐的推理优化
面向M3重点强化的编程和智能体场景,摩尔线程这次用了之前适配DeepSeek-V4、MiniMax M2.7、GLM-5.1等多款国产旗舰模型时积累的经验,形成了一套高效、系统化的复杂推理任务优化方法论。具体做法是通过原生算子定制,在模型精度无损的前提下,显著提升了推理吞吐,降低了响应延迟。同时,摩尔线程将vLLM和SGLang两大主流推理框架同步拉起,用MUSA开放架构拥抱开源生态,给开发者提供了灵活多样的部署选择。
推动原生多模态推理:覆盖全精度与贯通全场景
M3从Step 0就进行多模态混合训练,这种设计天然适合当下的Agentic AI多元场景,但同时也要求底层的算力平台具备多元化的计算能力。MTT S5000从FP8到FP64全计算精度都覆盖了,可以无缝适配从模型研发到商业化落地的完整链路,帮助国产旗舰大模型快速完成生态普及。
随着MiniMax M3在MTT S5000上完成适配,开发者现在就可以基于MUSA软件栈和vLLM/SGLang双框架进行部署,并且后续还能持续获得算子级的性能优化。依托MUSA架构对主流AI生态的深度兼容与持续演进,摩尔线程已经覆盖了从“适配—部署—优化”的完整工程能力,帮助开发者以更快的响应、更稳的运行、更低的迁移成本接入最新模型能力,加速大模型创新落地与规模化应用。
关于摩尔线程
摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。愿景是为美好世界加速。