大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相
来源:互联网
时间:2026-06-12 15:04:20
最近,AI圈里有个挺有意思的发现:MiniMax的M2系列模型,在输出特定人名“马嘉祺”时,表现有点不对劲。这事儿很快引起了开发者的注意。MiniMax官方反应迅速,立刻展开了全链路排查,并发布了一份详细的技术报告。报告揭示的问题,比一个名字的输出异常要深刻得多——其根源在于
后训练阶段导致的低频Token退化

根因定位:被“挤压”的词元
问题到底出在哪儿?排查后发现,分词器将“马嘉祺”切分成了 ['马', '嘉祺']。其中,“嘉祺”这个词在预训练阶段出现频率其实不低,因此被合并成了一个独立的Token(编号190467)。然而,到了决定模型对话能力的“后训练”阶段,情况就变了——包含这个Token的训练样本,竟然不足5条。
这种极低的曝光率,导致该Token在模型的向量空间里长期“坐冷板凳”,得不到有效的优化和更新。与此同时,那些高频出现的Token,比如各种代码符号、工具调用标记,却在频繁地更新迭代。结果就是,低频Token被高频Token不断“挤压”,在向量空间中发生了偏移。模型虽然还记得“马嘉祺”这个知识概念,但输出对应正确Token的能力却丧失了,只好退而求其次,选择发音相近的“佳琪”或“琪琪”来替代。
连锁反应:日语与垃圾词的“遗忘”
这可不是个例。通过对20万词表的全面扫描,MiniMax发现大约有
4.9%
日语内容,退化率高达29.7%
更有意思的是,退化名单里还躺着大量互联网上的SEO垃圾词,比如“传奇私服”、“无痛人流”等等。这些词汇在高质量的对话数据中几乎绝迹,模型在后训练过程中接触不到,于是便自然而然地将其“遗忘”了。
解决方案:建立生成频率“底线”
针对这个系统性难题,MiniMax提出了三项核心的修复策略:
- 主动构造一种“复读”任务,确保词表中的每一个Token,在后训练阶段都能获得最低限度的“练习”机会。目前,采取这项措施后,日语字符的混淆率已从47%大幅降至1%,全词表的参数稳定性得到了显著提升。
全词表合成数据:
- 在指令微调(SFT)数据中,按一定比例重新掺入一部分预训练语料。利用预训练语料在广度上的优势,来缓解模型在后训练阶段对某些知识的“遗忘”。
混入预训练语料:
- 一劳永逸地移除那些几乎永远不会被用到的冗余Token,同时,将Token的覆盖度正式纳入后训练阶段的质量监控指标体系,做到防患于未然。
词表裁剪与监控: