Mellum2 - JetBrains 开源的混合专家模型
来源:互联网
时间:2026-06-04 15:41:08
Mellum2是什么
JetBrains最近开源了一个叫Mellum2的模型,目标很明确——专为软件工程系统打造。它的总参数量12B,但每个token只激活2.5B参数,这在推理成本和性能之间找到了一个相当巧妙的平衡点。简单说,就是用更少的计算资源做更多的事,尤其适用于代码生成、智能路由、子Agent调用以及企业级私有化部署场景。在LiveCodeBench这类代码评测中,它的表现相当抢眼,算得上是构建AI编程助手和工作流的实用选择。
Mellum2的主要功能
- :基于代码和自然语言数据训练,支持代码补全、函数生成与重构建议——IDE里那些烦人的重复劳动,它可以接过去不少。
智能代码生成
- :提供Thinking(深度思考)与Non-thinking(快速响应)两种模式,按需切换。遇到复杂逻辑就开启深度模式,日常补全则走快速通道。
双模式推理
- :充当AI工作流的智能路由器,负责任务分发、文档摘要与中间推理。说白了,就是让不同AI工具能协作起来。
工作流路由与摘要
- :支持子Agent调用和工具链集成,可以嵌入到自动化流程中,比如自动构建、测试部署。
工具调用与Agent协作
- :可在企业内网或本地设备独立运行,不依赖外部API,数据安全合规有保障。
本地私有部署
Mellum2的技术原理
- :采用64专家、每token激活8个专家的混合专家设计。总参数量12B,但实际激活仅2.5B,推理成本接近2.5B的密集模型。再加上Grouped-Query Attention和滑动窗口注意力,显存占用被大幅压缩,解码速度也提上去了。还有一个有意思的设计——多Token预测头,它作为辅助预训练目标,同时充当投机解码的内置Draft模型,进一步降低延迟。
MoE稀疏架构
- :模型在约10.6万亿Token上训练,数据配比从通用网页数据逐步过渡到精选代码与数学内容,形成渐进式课程。优化方面用了Muon优化器配合FP8混合精度,学习率采用Warmup-Hold-Decay(线性衰减至零)策略,兼顾效率和稳定性。
三阶段课程预训练
- :基础模型通过Layer-Selective YaRN将上下文窗口扩展至128K,只对关键层进行位置编码插值,避免了全层微调带来的性能损失。
长上下文扩展
Mellum2的核心优势
- :12B总参数仅激活2.5B,推理成本低,吞吐高,延迟低。
MoE高效架构
- :放弃多模态,专注代码与自然语言,在软件工程场景下更精准、更轻量。
垂直领域专精
- :在LiveCodeBench v6代码评测中,Thinking模式得分69.9,领先同级别开源模型。
生产级性能
- :Apache 2.0协议,自由实验、微调及大规模商用部署。
完全开源可商用
- :支持完全本地化运行,满足代码安全与数据合规要求。
企业隐私友好
Mellum2的同类竞品对比
| 对比维度 | Mellum2 |
Qwen3.5-9B |
SeedCoder-8B |
|---|---|---|---|
| 模型架构 | 12B MoE(64专家,8激活,2.5B活跃参数) | 9B密集模型(Dense) | 8B密集模型(Dense) |
| 开源协议 | Apache 2.0 |
开源(可商用) | 未明确/部分受限 |
| 模态支持 | 仅文本+代码(垂直专精) | 文本、代码、图像、视频(多模态通用) | 仅代码(单领域) |
| 每Token计算量 | ≈2.5B参数 |
9B参数(全量激活) | 8B参数(全量激活) |
| LiveCodeBench v6 | 69.9 |
68.3(Thinking) | 28.1(Non-thinking) |
| BFCL V4工具调用 | 45.6(Thinking) | 42.7(Thinking) | N/A(不支持) |
| AIME数学推理 | 58.4(Thinking) | 73.4 |
0(不支持) |
| 上下文长度 | 128K(YaRN扩展) | 128K+ | 通常4K-8K |
| 推理模式 | 双模式:Thinking + Non-thinking | 双模式:Thinking + Non-thinking | 仅Non-thinking |
Mellum2的应用场景
- :在IDE中提供实时代码补全、函数生成、代码重构与编辑建议,替代传统自动补全工具。
智能代码补全与生成
- :辅助开发者定位Bug、分析堆栈信息、生成修复方案,降低调试时间成本。
调试与错误诊断
- :在Agent工作流中承担中间推理节点,将复杂需求拆解为可执行的子任务序列。
多步推理与复杂任务分解
- :通过Function Calling连接外部API、数据库或开发工具,实现自动化构建、测试与部署流程。
工具调用与函数编排
- :用自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践,充当7×24小时的技术顾问。
对话式编程助手