首页

手游

资讯

专题

首页 > 教程攻略 > ai教程 >MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

来源：互联网时间：2026-06-30 07:13:31

「2025 年，我们可能会看到第一批 AI Agent 加入劳动力大军，并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman

「2025 年，每个公司都将拥有 AI 软件工程师 Agent，它们会编写大量代码。」——Meta CEO Mark Zuckerberg

「未来，每家公司的 IT 部门都将成为 AI Agent 的 HR 部门。」—— 英伟达 CEO 黄仁勋

2025 年开年，趋势尚未明朗，几位 AI 界的关键人物却不约而同地指向了同一个方向——2025 年将是 AI Agent 的元年。对于这个判断，大家应该不会感到意外。

没想到的是，MiniMax 很快就有了动作：他们开源了最新的基础语言模型 MiniMax-Text-01 以及视觉多模态模型 MiniMax-VL-01。新模型最大的亮点在于，业内首次大规模实现了全新的线性注意力机制，这让输入的上下文窗口被拉长到了惊人的 400 万 token——是其他模型的 20 到 32 倍。MiniMax 相信，这些模型将为接下来一年里 Agent 相关应用的爆发提供有力的支撑。

那么，这项工作为何对 Agent 如此关键？原因在于，随着 Agent 深入实际应用场景，无论是单个 Agent 工作时产生的记忆，还是多个 Agent 协作时产生的上下文（context），都对模型的长上下文窗口提出了更高的要求。

一系列创新，造就比肩顶尖模型的开源模型

MiniMax-Text-01 究竟是如何炼成的？从新型线性注意力到改进版的混合专家架构，再到并行策略和通信技术的优化，MiniMax 解决了一连串大模型在面对超长上下文时的效果与效率痛点。

MiniMax-Text-01 的架构

Lightning Attention

当下主流的 LLM 大多基于 Transformer，而 Transformer 核心的自注意力机制是其计算成本的主要来源。为了优化，研究社区可以说是绞尽脑汁，陆续提出了稀疏注意力、低秩分解和线性注意力等众多技术。MiniMax 的 Lightning Attention 就属于线性注意力的一种。

通过使用线性注意力，原生 Transformer 的计算复杂度能从二次复杂度大幅下降到线性复杂度，如下图所示。

根据 MiniMax 的技术报告，这主要得益于一种“右边积核技巧”（right product kernel trick）。以 2022 年论文《The Devil in Linear Transformer》中的 TransNormer 为例，下图左侧的 NormAttention 机制可被转换成使用“右侧矩阵乘法”的线性变体。

而 Lightning Attention 就是基于 TransNormer 实现的一个 I/O 感知型优化版本。其前向传递的算法描述如下。

基于 Lightning Attention，MiniMax 还提出了一个 Hybrid-lightning 方案，即每隔 8 层将 Lightning Attention 替换成 softmax 注意力。这样做，既解决了 softmax 注意力的效率问题，也提升了 Lightning Attention 的 scaling 能力。效果如何？下表给出了根据层数、模型维度、批量大小和序列长度计算注意力架构参数量与 FLOPs 的公式。可以明显看出，模型规模越大，Lightning Attention 与 Hybrid-lightning 相对于 softmax 注意力的优势就越明显。

混合专家（MoE）

MoE 相对于密集模型的效率优势已经得到大量研究的验证。MiniMax 团队同样进行了一番对比实验，比较了一个 7B 参数的密集模型和 2B 激活参数、20B 总参数的 MoE 模型。结果如下图所示：在多种基准上，当计算负载相同时，MoE 模型的表现大幅优于密集模型。

此外，MiniMax 还引入了一个新的 allgather 通信步骤，专门用于解决扩大 MoE 模型规模时可能遇到的路由崩溃（routing collapse）问题。这是一个典型的高效算法设计思路。

计算优化

和许多大模型训练项目一样，MiniMax 先通过小规模实验验证上述技术改进的有效性以及 Scaling Law，然后再开始大规模训练。训练过程中，他们使用了 1500 到 2500 台 H800 GPU，并且具体数量会动态变化。大规模训练有其特有的挑战，MiniMax 为此开发了一系列针对性的优化。

首先，对于 MoE 架构，优化重点在于降低其通信负载，尤其是采用 all-to-all（a2a）通信的 MoE 模型。他们的解决方案是一种基于 token 分组的重叠方案。

其次，对于长上下文训练，一大难题是很难将真实的训练样本标准化到统一长度。传统的方法是填充，但这会造成严重的计算浪费。MiniMax 的思路是进行数据格式化，让不同样本沿序列维度首尾相连，并将这种技术命名为 data-packing。这种格式能最大限度地减少计算过程中的浪费。

最后，为了让 Lightning Attention 真正落地，MiniMax 采用了四项优化策略：分批核融合、分离式的预填充与解码执行、多级填充，以及跨步分批矩阵乘法扩展。

MiniMax-Text-01：上下文巨长，能力也够强

基于以上一系列创新，MiniMax 最终得到了一个拥有 32 个专家、总参数量达 4560 亿的 LLM，每个 token 会激活其中 459 亿个参数。这个模型被命名为 MiniMax-Text-01。推理时，它的上下文长度最高可达 400 万 token，并且展现出了非常卓越的长上下文能力。

MiniMax-Text-01 基准成绩优秀

在常见的学术测试集上，MiniMax-Text-01 基本能媲美甚至超越 GPT-4o、Claude 3.5 Sonnet 等闭源模型，以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 开源模型。直接看成绩。

可以看到，在 HumanEval 上，MiniMax-Text-01 的表现与 Instruct Qwen2.5-72B 不相上下。此外，在 GPQA Diamond 这样具有挑战性的问答数据集上，它取得了 54.4 的成绩，超越了大多数开源指令微调的 LLM 以及最新版本的 GPT-4o。在 MMLU、IFEval 和 Arena-Hard 等测试中，它也跻身前三甲，展示了其在给定限制条件下，应用全面知识以满足用户查询、与人类偏好保持一致的卓越能力。这无疑为开发者开发 Agent 应用提供了更好的基础。

领先的上下文能力

那么，MiniMax-Text-01 引以为傲的长上下文能力到底有多强？优势非常明显。

在长上下文理解任务上，MiniMax 测试了 Ruler 和 LongBench v2 两个常见基准。在 Ruler 上，当上下文长度在 64k 或更短时，MiniMax-Text-01 与其它 SOTA 模型不相上下；而当上下文长度超过 128k 时，它的优势就立刻显现出来了。

在 Ruler 上，MiniMax-Text-01 与其它模型的性能比较

同样，在 LongBench v2 的长上下文推理任务上，MiniMax-Text-01 的表现也十分突出。

在 LongBench v2 上，MiniMax-Text-01 与其它模型的性能比较

另外，MiniMax-Text-01 的长上下文学习能力（这是终身学习的核心研究方向）也达到了 SOTA 水平，在 MTOB 基准上得到了充分验证。

在 MTOB 上，MiniMax-Text-01 与其它模型的性能比较

长文本能力实例展示

基准分数不错，实际表现又如何？来看几个例子。

先写首歌吧。

人类评估者给出了非常积极的评价：诗意的语言和演绎空间为歌曲增添了层层趣味和情感共鸣，使其既引人入胜又发人深省。

下面重点展示 MiniMax-Text-01 的长上下文能力。对于新几内亚的一门小众语言 Kalamang，将指令、语法书、单词表、与英语的对照例句全部放入上下文，然后让其执行翻译。可以看到，MiniMax-Text-01 给出的答案基本与标准答案一致。

至于长对话记忆任务，MiniMax-Text-01 的表现堪称完美。

视觉-语言模型

基于 MiniMax-Text-01，MiniMax 还开发了一个多模态版本：MiniMax-VL-01。思路很直接：在文本模型的基础上整合一个图像编码器和一个图像适配器。简而言之，就是将图像转化为 LLM 能够理解的 token 形式。

因此，其整体架构遵循了常见的 ViT-MLP-LLM 范式：以 MiniMax-VL-01 为基础模型，使用一个 303M 参数的 ViT 作为视觉编码器，并配以一个随机初始化的两层 MLP投影器来执行图像适应。当然，为了确保视觉理解能力足够强，还需要在文本模型的基础上使用图像-语言数据进行持续训练。MiniMax 为此设计了一个专有数据集，并采用了一个多阶段训练策略。

最终得到的 MiniMax-VL-01 模型在各个基准上的表现如下。

可以看到，MiniMax-VL-01 整体表现强劲，能与其它 SOTA 模型相媲美，并在某些指标上达到了最佳。

下面展示了一个分析导航地图的示例，MiniMax-VL-01 的表现值得点赞。

探索无限的上下文窗口，让 Agent 走进物理世界

有人认为，context 是贯穿 AI 产品发展的一条暗线。context 是否充分同步，会直接影响智能应用的用户体验——这包括用户的个性化信息、环境变化信息等各种背景上下文。为了保证 context 的充分同步，足够大的上下文窗口就成了大模型必须攻克的技术难题。目前，MiniMax 已经在这条路上迈出了重要的一步。

当然，400 万 token 的上下文窗口远不是终点。他们在技术报告中写道：“我们正在研究更高效的架构，以完全消除 softmax 注意力，这可能使模型能够支持无限的上下文窗口，而不会带来计算开销。” 除此之外，MiniMax 还在 LLM 的基础上训练了视觉语言模型，同样拥有超长的上下文窗口，这同样是由 Agent 所面对的任务决定的——毕竟，在现实生活中，多模态任务远比纯文本任务更为常见。

“我们认为，下一代人工智能是无限接近通过图灵测试的智能体，交互自然、触手可及、无处不在。”MiniMax 创始人在去年的一次活动中这样说道。或许，“无处不在”也意味着，随着多模态 token 的加入，Agent 将逐步走进物理世界。为此，整个 AI 社区需要更多的技术储备。