首页 > 教程攻略 > ai资讯 >Mellum2 - JetBrains 开源的混合专家模型

Mellum2 - JetBrains 开源的混合专家模型

来源：互联网时间：2026-06-04 15:41:08

Mellum2是什么

JetBrains最近开源了一个叫Mellum2的模型，目标很明确——专为软件工程系统打造。它的总参数量12B，但每个token只激活2.5B参数，这在推理成本和性能之间找到了一个相当巧妙的平衡点。简单说，就是用更少的计算资源做更多的事，尤其适用于代码生成、智能路由、子Agent调用以及企业级私有化部署场景。在LiveCodeBench这类代码评测中，它的表现相当抢眼，算得上是构建AI编程助手和工作流的实用选择。

Mellum2的主要功能

智能代码生成
：基于代码和自然语言数据训练，支持代码补全、函数生成与重构建议——IDE里那些烦人的重复劳动，它可以接过去不少。
双模式推理
：提供Thinking（深度思考）与Non-thinking（快速响应）两种模式，按需切换。遇到复杂逻辑就开启深度模式，日常补全则走快速通道。
工作流路由与摘要
：充当AI工作流的智能路由器，负责任务分发、文档摘要与中间推理。说白了，就是让不同AI工具能协作起来。
工具调用与Agent协作
：支持子Agent调用和工具链集成，可以嵌入到自动化流程中，比如自动构建、测试部署。
本地私有部署
：可在企业内网或本地设备独立运行，不依赖外部API，数据安全合规有保障。

Mellum2的技术原理

MoE稀疏架构
：采用64专家、每token激活8个专家的混合专家设计。总参数量12B，但实际激活仅2.5B，推理成本接近2.5B的密集模型。再加上Grouped-Query Attention和滑动窗口注意力，显存占用被大幅压缩，解码速度也提上去了。还有一个有意思的设计——多Token预测头，它作为辅助预训练目标，同时充当投机解码的内置Draft模型，进一步降低延迟。
三阶段课程预训练
：模型在约10.6万亿Token上训练，数据配比从通用网页数据逐步过渡到精选代码与数学内容，形成渐进式课程。优化方面用了Muon优化器配合FP8混合精度，学习率采用Warmup-Hold-Decay（线性衰减至零）策略，兼顾效率和稳定性。
长上下文扩展
：基础模型通过Layer-Selective YaRN将上下文窗口扩展至128K，只对关键层进行位置编码插值，避免了全层微调带来的性能损失。

Mellum2的核心优势

MoE高效架构
：12B总参数仅激活2.5B，推理成本低，吞吐高，延迟低。
垂直领域专精
：放弃多模态，专注代码与自然语言，在软件工程场景下更精准、更轻量。
生产级性能
：在LiveCodeBench v6代码评测中，Thinking模式得分69.9，领先同级别开源模型。
完全开源可商用
：Apache 2.0协议，自由实验、微调及大规模商用部署。
企业隐私友好
：支持完全本地化运行，满足代码安全与数据合规要求。

Mellum2的同类竞品对比

对比维度	Mellum2	Qwen3.5-9B	SeedCoder-8B
模型架构	12B MoE（64专家，8激活，2.5B活跃参数）	9B密集模型（Dense）	8B密集模型（Dense）
开源协议	Apache 2.0 （完全可商用）	开源（可商用）	未明确/部分受限
模态支持	仅文本+代码（垂直专精）	文本、代码、图像、视频（多模态通用）	仅代码（单领域）
每Token计算量	≈2.5B参数（极低）	9B参数（全量激活）	8B参数（全量激活）
LiveCodeBench v6	69.9 （Thinking）	68.3（Thinking）	28.1（Non-thinking）
BFCL V4工具调用	45.6（Thinking）	42.7（Thinking）	N/A（不支持）
AIME数学推理	58.4（Thinking）	73.4 （Thinking）	0（不支持）
上下文长度	128K（YaRN扩展）	128K+	通常4K-8K
推理模式	双模式：Thinking + Non-thinking	双模式：Thinking + Non-thinking	仅Non-thinking

Mellum2的应用场景

智能代码补全与生成
：在IDE中提供实时代码补全、函数生成、代码重构与编辑建议，替代传统自动补全工具。
调试与错误诊断
：辅助开发者定位Bug、分析堆栈信息、生成修复方案，降低调试时间成本。
多步推理与复杂任务分解
：在Agent工作流中承担中间推理节点，将复杂需求拆解为可执行的子任务序列。
工具调用与函数编排
：通过Function Calling连接外部API、数据库或开发工具，实现自动化构建、测试与部署流程。
对话式编程助手
：用自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践，充当7×24小时的技术顾问。

Mellum2 - JetBrains 开源的混合专家模型

Mellum2是什么

Mellum2的主要功能

智能代码生成

双模式推理

工作流路由与摘要

工具调用与Agent协作

本地私有部署

Mellum2的技术原理

MoE稀疏架构

三阶段课程预训练

长上下文扩展

Mellum2的核心优势

MoE高效架构

垂直领域专精

生产级性能

完全开源可商用

企业隐私友好

Mellum2的同类竞品对比

Mellum2

Qwen3.5-9B

SeedCoder-8B

Apache 2.0

≈2.5B参数

69.9

73.4

Mellum2的应用场景

智能代码补全与生成

调试与错误诊断

多步推理与复杂任务分解

工具调用与函数编排

对话式编程助手

相关阅读

相关下载