首页 > 教程攻略 > ai资讯 >大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

来源:互联网 时间:2026-06-12 15:04:20

最近,AI圈里有个挺有意思的发现:MiniMax的M2系列模型,在输出特定人名“马嘉祺”时,表现有点不对劲。这事儿很快引起了开发者的注意。MiniMax官方反应迅速,立刻展开了全链路排查,并发布了一份详细的技术报告。报告揭示的问题,比一个名字的输出异常要深刻得多——其根源在于

后训练阶段导致的低频Token退化

QQ20260509-113647.jpg

根因定位:被“挤压”的词元

问题到底出在哪儿?排查后发现,分词器将“马嘉祺”切分成了 ['马', '嘉祺']。其中,“嘉祺”这个词在预训练阶段出现频率其实不低,因此被合并成了一个独立的Token(编号190467)。然而,到了决定模型对话能力的“后训练”阶段,情况就变了——包含这个Token的训练样本,竟然不足5条。

这种极低的曝光率,导致该Token在模型的向量空间里长期“坐冷板凳”,得不到有效的优化和更新。与此同时,那些高频出现的Token,比如各种代码符号、工具调用标记,却在频繁地更新迭代。结果就是,低频Token被高频Token不断“挤压”,在向量空间中发生了偏移。模型虽然还记得“马嘉祺”这个知识概念,但输出对应正确Token的能力却丧失了,只好退而求其次,选择发音相近的“佳琪”或“琪琪”来替代。

连锁反应:日语与垃圾词的“遗忘”

这可不是个例。通过对20万词表的全面扫描,MiniMax发现大约有

4.9%

的Token存在显著的退化现象。其中,退化最严重的“重灾区”是

日语内容,退化率高达29.7%

。这也就解释了,为什么有些模型在进行日语对话时,会偶尔莫名其妙地混入俄语或韩语字符——根本原因在于,这些日语Token的参数发生了漂移,在向量空间里和其他语言的字符“混”在了一起。

更有意思的是,退化名单里还躺着大量互联网上的SEO垃圾词,比如“传奇私服”、“无痛人流”等等。这些词汇在高质量的对话数据中几乎绝迹,模型在后训练过程中接触不到,于是便自然而然地将其“遗忘”了。

解决方案:建立生成频率“底线”

针对这个系统性难题,MiniMax提出了三项核心的修复策略:

  1. 全词表合成数据:

    主动构造一种“复读”任务,确保词表中的每一个Token,在后训练阶段都能获得最低限度的“练习”机会。目前,采取这项措施后,日语字符的混淆率已从47%大幅降至1%,全词表的参数稳定性得到了显著提升。

  2. 混入预训练语料:

    在指令微调(SFT)数据中,按一定比例重新掺入一部分预训练语料。利用预训练语料在广度上的优势,来缓解模型在后训练阶段对某些知识的“遗忘”。

  3. 词表裁剪与监控:

    一劳永逸地移除那些几乎永远不会被用到的冗余Token,同时,将Token的覆盖度正式纳入后训练阶段的质量监控指标体系,做到防患于未然。

总结一下:

“马嘉祺”事件看似偶然,实则折射出一个普遍问题:大模型分词器的设计,与实际应用场景之间存在着脱节。MiniMax在报告中指出,未来的数据策略必须双管齐下,既要考虑语义层面的理解,也要兼顾统计层面的覆盖。唯有如此,才能确保模型在学会“如何聊天”的同时,不丢掉它最底层的词汇表达力。这或许才是此次技术排查带给行业的最大启示。