首页 > 教程攻略 > ai资讯 >Day-0支持｜摩尔线程率先完成MiniMax M3大模型适配

Day-0支持｜摩尔线程率先完成MiniMax M3大模型适配

来源：互联网时间：2026-06-14 13:56:05

这两天AI圈有个挺有意思的动向：6月12日，MiniMax把他们的新一代原生多模态旗舰模型M3直接开源了。而几乎就在同一天，摩尔线程的旗舰级AI训推一体智算卡MTT S5000就完成了对该模型的Day-0极速适配。这意味着国产大模型与国产算力芯片的协同又往前推了一步，也侧面展示了摩尔线程靠原生FP8算力底座加上MUSA软件生态，确实能对前沿大模型的需求做到即时响应和稳定支撑。

MiniMax M3开源地址（Hugging Face）：
https://huggingface.co/MiniMaxAI/MiniMax-M3

开发者镜像下载地址（可直接开箱体验）：
registry.mthreads.com/mcconline/inference/vllm:v0.20.0-ph1-4.3.5-torch2.9-20260605-mtcc51

这款模型在国内算是个独一份的存在：它是目前唯一同时具备前沿Coding & Agentic能力、超长上下文、并且原生就是多模态的开源大模型。简单说，它是第一个把完整的frontier能力带进开放世界的模型。背后基于自研的MSA（MiniMax Sparse Attention）架构，上下文窗口可以扩展到1M级别。在BrowseComp、SWE-Bench Pro这些国际权威评测里，其表现也达到了前沿水平。值得注意的是，M3从一开始就重构了整个数据管线，从第零步就开始做多模态训练，所以文本和视觉的语义空间对齐度非常高。

图示：MiniMax M3的Coding & Agentic能力在软件工程、终端执行、工具调用等多维度权威评测中达到前沿水平。

针对M3的核心技术特性，MTT S5000从硬件算力、软件栈到开源框架做了全链路的精准匹配和深度优化，具体体现在三个层面：

支撑超长上下文：高密度算力与大显存提供坚实支撑

MSA架构带来的超长上下文窗口，对推理阶段KV Cache的存储和访存带宽要求非常高。MTT S5000这边硬件级原生FP8加速，单卡AI算力（稠密）达到1000 TFLOPS；同时配备了80GB大容量显存和1.6TB/s的超高带宽。这样的配置给百万token级长序列提供了充足的缓存空间和数据吞吐能力。另外，借助MUSA C++和Triton-MUSA等抽象层，M3的新算子结构能快速迁移，确保摩尔线程平台可以迅速完成架构适配。

赋能前沿Coding与Agentic能力：实现低延迟、高吞吐的推理优化

面向M3重点强化的编程和智能体场景，摩尔线程这次用了之前适配DeepSeek-V4、MiniMax M2.7、GLM-5.1等多款国产旗舰模型时积累的经验，形成了一套高效、系统化的复杂推理任务优化方法论。具体做法是通过原生算子定制，在模型精度无损的前提下，显著提升了推理吞吐，降低了响应延迟。同时，摩尔线程将vLLM和SGLang两大主流推理框架同步拉起，用MUSA开放架构拥抱开源生态，给开发者提供了灵活多样的部署选择。

推动原生多模态推理：覆盖全精度与贯通全场景

M3从Step 0就进行多模态混合训练，这种设计天然适合当下的Agentic AI多元场景，但同时也要求底层的算力平台具备多元化的计算能力。MTT S5000从FP8到FP64全计算精度都覆盖了，可以无缝适配从模型研发到商业化落地的完整链路，帮助国产旗舰大模型快速完成生态普及。

随着MiniMax M3在MTT S5000上完成适配，开发者现在就可以基于MUSA软件栈和vLLM/SGLang双框架进行部署，并且后续还能持续获得算子级的性能优化。依托MUSA架构对主流AI生态的深度兼容与持续演进，摩尔线程已经覆盖了从“适配—部署—优化”的完整工程能力，帮助开发者以更快的响应、更稳的运行、更低的迁移成本接入最新模型能力，加速大模型创新落地与规模化应用。

关于摩尔线程

摩尔线程以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。目标是成为具备国际竞争力的GPU领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。愿景是为美好世界加速。

Day-0支持｜摩尔线程率先完成MiniMax M3大模型适配

支撑超长上下文：高密度算力与大显存提供坚实支撑

赋能前沿Coding与Agentic能力：实现低延迟、高吞吐的推理优化

推动原生多模态推理：覆盖全精度与贯通全场景

关于摩尔线程

相关阅读

相关下载