首页 > 教程攻略 > ai资讯 >大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

来源：互联网时间：2026-06-12 15:04:20

最近，AI圈里有个挺有意思的发现：MiniMax的M2系列模型，在输出特定人名“马嘉祺”时，表现有点不对劲。这事儿很快引起了开发者的注意。MiniMax官方反应迅速，立刻展开了全链路排查，并发布了一份详细的技术报告。报告揭示的问题，比一个名字的输出异常要深刻得多——其根源在于

后训练阶段导致的低频Token退化

。

根因定位：被“挤压”的词元

问题到底出在哪儿？排查后发现，分词器将“马嘉祺”切分成了 ['马'， '嘉祺']。其中，“嘉祺”这个词在预训练阶段出现频率其实不低，因此被合并成了一个独立的Token（编号190467）。然而，到了决定模型对话能力的“后训练”阶段，情况就变了——包含这个Token的训练样本，竟然不足5条。

这种极低的曝光率，导致该Token在模型的向量空间里长期“坐冷板凳”，得不到有效的优化和更新。与此同时，那些高频出现的Token，比如各种代码符号、工具调用标记，却在频繁地更新迭代。结果就是，低频Token被高频Token不断“挤压”，在向量空间中发生了偏移。模型虽然还记得“马嘉祺”这个知识概念，但输出对应正确Token的能力却丧失了，只好退而求其次，选择发音相近的“佳琪”或“琪琪”来替代。

连锁反应：日语与垃圾词的“遗忘”

这可不是个例。通过对20万词表的全面扫描，MiniMax发现大约有

4.9%

的Token存在显著的退化现象。其中，退化最严重的“重灾区”是

日语内容，退化率高达29.7%

。这也就解释了，为什么有些模型在进行日语对话时，会偶尔莫名其妙地混入俄语或韩语字符——根本原因在于，这些日语Token的参数发生了漂移，在向量空间里和其他语言的字符“混”在了一起。

更有意思的是，退化名单里还躺着大量互联网上的SEO垃圾词，比如“传奇私服”、“无痛人流”等等。这些词汇在高质量的对话数据中几乎绝迹，模型在后训练过程中接触不到，于是便自然而然地将其“遗忘”了。

解决方案：建立生成频率“底线”

针对这个系统性难题，MiniMax提出了三项核心的修复策略：

全词表合成数据：
主动构造一种“复读”任务，确保词表中的每一个Token，在后训练阶段都能获得最低限度的“练习”机会。目前，采取这项措施后，日语字符的混淆率已从47%大幅降至1%，全词表的参数稳定性得到了显著提升。
混入预训练语料：
在指令微调（SFT）数据中，按一定比例重新掺入一部分预训练语料。利用预训练语料在广度上的优势，来缓解模型在后训练阶段对某些知识的“遗忘”。
词表裁剪与监控：
一劳永逸地移除那些几乎永远不会被用到的冗余Token，同时，将Token的覆盖度正式纳入后训练阶段的质量监控指标体系，做到防患于未然。

总结一下：

“马嘉祺”事件看似偶然，实则折射出一个普遍问题：大模型分词器的设计，与实际应用场景之间存在着脱节。MiniMax在报告中指出，未来的数据策略必须双管齐下，既要考虑语义层面的理解，也要兼顾统计层面的覆盖。唯有如此，才能确保模型在学会“如何聊天”的同时，不丢掉它最底层的词汇表达力。这或许才是此次技术排查带给行业的最大启示。