MMAE - 腾讯混元联合高校推出的音频编辑评测基准
MMAE是什么
音频编辑领域的评测,长期以来一直缺乏一个真正统一、可横向对比的基准。尤其是当任务涉及声音、音乐、语音以及它们的混合场景时,现有的评估方法要么碎片化,要么只盯着单一模态。最近,上海交通大学、上海创智学院、南洋理工大学、腾讯混元团队等机构联合推出了一套新基准——MMAE(Massive Multitask Audio Editing Benchmark),正是为了填补这个空白。
简单来说,MMAE是一个面向通用指令式音频编辑的大规模多任务评测基准。它包含了2,000条从真实场景中提取的音频编辑任务,并配套了17,741条细粒度的rubric评测项。这个基准系统性地覆盖了7种音频模态、6级任务难度、8类编辑操作,旨在为下一代智能音频编辑系统提供一个标准化、可解释的评测范式。说白了,它不只是打个分,而是让你看清楚模型到底在哪个环节掉了链子。

MMAE的主要功能
先快速过一下MMAE具体提供了哪些能力,这些功能设计都是冲着“实用”和“可诊断”去的:
- :2,000条样本全部来自真实场景的高保真音频,不是那种合成数据,所以评测结果更能反映模型在真实应用中的表现。
真实场景任务库
- :建立了模态(Modality)、复杂度(Complexity)、操作(Operation)三个正交维度。模态有7种:sound、music、speech及其两两或三者混合;复杂度从single一路升级到multi-hop/multi-round;操作涵盖local增删改查、属性编辑以及global背景/前景/属性编辑,一共8类。这样分类的好处是,你可以精准控制测试的覆盖范围。
三维系统分类
- :每条样本平均约9条原子化的选择题式rubric,而且是可验证的那种。它们从“指令遵循”和“上下文一致性”两个独立维度分别打分,避免了传统信号级指标的模糊性。
细粒度Rubric评测
- :输出IFR(指令遵循率)、CR(一致性率)和EMR(精确匹配率),从平均能力到完美执行率全覆盖。
多维量化指标
- :基于Qwen3-Omni多模态大模型担任评判器,支持自动、可复现的评分,跑一遍就能出结果。
自动化评测流水线
MMAE的技术原理
光有功能还不够,得知道它背后的设计逻辑。MMAE在技术实现上做了几个关键决策:
- :整个数据构建流程分了五个阶段——专家头脑风暴收集场景 → 构建分类学与评测范式 → 指令中心数据收集与动态平衡 → 人机协作rubric标注 → 交叉审核质量检查。每一步都有专门设计,保证数据质量。
Human-Agent协作标注
- :把开放式自由格式的编辑任务拆解成17,741条原子化、正交、客观的多选题。每一条rubric只考核一个不可再分的属性,比如“背景音是否被移除”或者“说话人情绪是否变化”。这样评测结果可解释性极强,你能一眼看出模型具体在哪个属性上翻车了。
Rubric-Based评测范式
- :IFR看模型是否精确执行了指令要求的修改,CR看指令未涉及的部分是否被严格保留。两者结合,能有效阻断“只改不保”或“只保不改”的投机策略。比如有些模型可能为了高分而刻意不修改,或者疯狂修改但破坏原始内容,双维度评估直接把这种路径封死了。
双维度正交评估
- :使用Qwen3-Omni作为外部评判模型,每条rubric独立查询3次取多数决,而且每次随机打乱选项顺序,消除位置偏见。这保证了评判的稳定性和公平性。
稳定评判机制

如何使用MMAE
如果你手头有音频编辑模型想测一测,MMAE的使用流程并不复杂,主要分三步:
- :先克隆Qwen3-Omni官方仓库并配置环境,启动vLLM服务。参考脚本在8块GPU上启动两个tensor-parallel=4的实例,分别监听8001与8002端口。这个部署步骤一次搞定,后面就可以复用。
部署评判模型
- :在MMAE基准元数据上运行你的待测音频编辑模型,把输出音频路径以chatml格式追加为
准备预测结果
assistant回复,另存为一个JSON文件。 - :执行
运行自动评估
python -m eval.score命令,传入预测文件路径、评判模型API地址、音频根目录以及并发数,系统就会自动计算出IFR、CR、EMR等指标。整个过程自动化,结果可复现。
MMAE的核心优势
跟已有的其他评测基准相比,MMAE有几个明显的差异化优势:
- :所有样本都来自真实场景音频,经过多轮精细化修订与独立审核,避免了合成数据常见的分布偏移问题。
真实数据驱动
- :传统的FAD、CLAP等粗粒度指标只能给出一个总体打分,你根本不知道模型在哪一步出了问题。MMAE的rubric体系可以精确诊断到每个原子属性,相当于给模型能力画了一张详细的诊断路线图。
错误可定位
- :同时考核IFR与CR并引入EMR指标,迫使模型必须在“准确修改”和“保留原内容”之间取得平衡。单一策略刷分?不存在的。
防投机设计
- :第一次把sound、music、speech及其混合场景纳入同一个评测框架。在此之前,不同模态的评测基准各玩各的,高度碎片化,MMAE把大家拉到同一张桌子上比试。
跨模态统一
- :从最简单的单步单元素编辑,到需要多跳推理和多轮上下文依赖的复杂任务,完整覆盖模型认知pipeline的感知、推理、生成三层能力。不管是菜鸟模型还是顶级模型,都能找到适合自己的难度等级。
难度全覆盖
MMAE的项目地址
感兴趣的话可以直接去GitHub仓库和arXiv论文上查看详细资料:
- :https://github.com/ddlBoJack/MMAE
GitHub仓库
- :https://arxiv.org/pdf/2606.07229
arXiv技术论文
MMAE的同类竞品对比
为了便于理解MMAE的定位,这里把它和不久前提出的SpeechEditBench做个横向对比。注意,SpeechEditBench主要聚焦于双语语音编辑,而MMAE则是跨sound/music/speech的通用基准。
| 对比维度 | MMAE | SpeechEditBench |
|---|---|---|
定位 | 首个通用音频编辑评测基准(跨 sound/music/speech) | 双语多属性语音编辑评测基准(仅 speech) |
覆盖模态 | 7 种:sound、music、speech 及两两/三者混合 | 仅 speech(中文 + 英文双语) |
数据规模 | 2,000 条真实场景样本 + 17,741 条 rubric | 未公开具体样本数,覆盖 7 种原子属性编辑任务 |
任务类型 | 8 类操作 × 6 级复杂度(single → multi-hop / multi-round) | 7 种原子属性:Content、Emotion、Style、Prosody、Paralinguistic、Speaker、Acoustic;支持组合式多属性同时编辑 |
评测维度 | IFRCREMR | Target SuccessPreservation SuccessJoint Success |
评测粒度 | Rubric 级:每条样本平均 9 条原子化多选题,可定位具体错误环节 | 属性级:每个原子任务有预定义阈值(如 WER≤10%、余弦相似度≥0.5、DNSMOS 增益>0 等) |
评判器 | Qwen3-Omni(多模态大模型,每条 rubric 独立查询 3 次取多数决) | Gemini(多模态大模型,用于情感/风格/副语言评判)+ Whisper(ASR)+ Wa vLM(说话人嵌入)+ PANNs(场景分类) |
MMAE的应用场景
最后,说说MMAE能在哪些场合派上用场:
- :比如Step-Audio-EditX、Ming-UniAudio、Audio-Omni等模型可以用MMAE来做标准化评测,迭代诊断模型短板。
音频编辑模型研发
- :如果你的系统整合了统一音频理解/生成/编辑能力,MMAE能评测它在跨模态编辑上的鲁棒性。
多模态大模型音频模块评估
- :作为公平比较不同音频编辑架构的公共测试平台,推动领域标准化——这是目前学术界最缺的东西之一。
学术研究基准
- :音频内容生产平台可以基于MMAE框架构建自己的内部评测体系,筛选出最适合上线的高质量编辑模型。
工业质检
总而言之,MMAE的发布给音频编辑评测带来了一套真正结构化、可解释、跨模态的标准方案。如果你正在玩音频编辑方向,不妨拉下来跑一跑,看看自己手里的模型到底几斤几两。