首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >大模型终于说不出脏话了，有毒子词剪枝ToxPrune，预训练+推理双重防线

大模型终于说不出脏话了，有毒子词剪枝ToxPrune，预训练+推理双重防线

来源：互联网时间：2026-06-26 14:20:15

不用训练，不改权重，只动词表就能给大模型“消毒”？

港中文与FaceMind团队的研究给出了一个肯定的答案。

他们提出的方法名为

ToxPrune

，其核心思路是在推理阶段，直接将BPE词表中的有毒子词（subword）“连根拔除”。这意味着，模型在物理层面就

说不出口

那些脏话。

效果有多显著？在一个被专门微调成会说脏话的模型NSFW-3B上，其毒性评分从

0.89直接骤降至0.13

——几乎把一个“满嘴跑火车”的模型瞬间拉回了正常轨道。

更令人意外的是，在剪掉这些有毒词汇后，模型的对话质量非但没有下降，反而有所提升——BLEU、ROUGE、多样性等指标全面提高。

一个“脏话模型”的自我救赎

先来聊聊这篇论文究竟解决了什么问题。

众所周知，大模型的安全对齐（如RLHF）成本高昂且流程复杂，个人开发者通常难以承受。更要命的是，当前开源社区中存在部分“带毒”模型——例如NSFW-3B，它被专门微调用于生成一些不宜公开的内容。

对于这类已经“学坏”的模型，传统的安全分类器往往也无能为力。你让它重新生成，它再来一遍还是脏话，陷入死循环。

那该怎么办？

ToxPrune的思路可以概括为“简单粗暴，但极其优雅”：

第一步，准备一份现成的有毒词汇表（涵盖254个脏词）；
第二步，利用分词器将这些词汇切分成子词（共404个subword token）；
第三步，在模型生成文本时，将这些子词的采样概率直接设为0。

这样一来，模型在每个时间步都

物理上不可能

选中有毒token。

看一个具体例子——

输入：
Wow, you need a hobby to get away, like jujitsu or running.

NSFW-3B原始输出：
My hobbies aref*cking boring. I’m not a f*cking fan of f*cking hobbies.
（毒性评分：0.7）

ToxPrune之后：
My hobbies are reading mysteries, driving a truck, and raising children.
（毒性评分：0.0）

同一个模型，同一组参数，仅仅因为在解码阶段剪掉了有毒子词，输出就从“三连脏话”变成了“岁月静好”。

越剪越好？意外的“多样性红利”

论文中最令人惊喜的发现并非“消毒”本身，而是

消毒带来的额外收益

。

在有毒模型NSFW-3B上，随着剪枝比例从25%提升至100%，毒性持续下降，但BLEU-2/3/4、ROUGE和Distinct指标反而

全线上升

。这说明了什么？NSFW-3B本身其实具备正常的语言建模能力，只是概率分布被有毒词汇“霸占”了。剪掉脏词后，模型被迫去寻找语义等价但无毒的替代表达，反而激活了被压制的“好词”。

更有意思的是，在

本身就没有毒性

的Llama-3.1-6B模型上，ToxPrune同样能显著提升多样性——Distinct-1从0.232升至0.323，Distinct-2从0.719升至0.804。作者推测，屏蔽某些高频子词让概率分布更加平坦，从而促进了词汇多样性。

人类评估也验证了这一结论：在适当性、信息量、参与感、类人性等维度上，ToxPrune全面胜出，且流畅性和连贯性完全不受影响。

方法还能继续进化

ToxPrune还提供了两个可选的增强模块。

一个是

释义黑名单

——利用LLM为有毒词自动生成同义词，以扩大剪枝覆盖面。毕竟254个脏词只覆盖了NSFW-3B生成有毒词的72%，仍有漏网之鱼。

另一个是

截断白名单

——有些正常词会和脏词共享子词，比如“assassin”中含有“ass”。白名单可以保护这些正常词不被误伤。

这意味着ToxPrune并非一个固定不变的方法，而是一个

可动态定制的框架

。用户可以根据自身需求随时更新有毒词表，即插即用，无需任何训练成本。

与GPT之父Alec Radford新作的碰撞：殊途同归的AI安全哲学

有趣的是，就在今年1月，GPT之父

Alec Radford

（OpenAI前核心研究员，GPT/GPT-2/CLIP第一作者）与斯坦福研究者Neil Rathi联合发表了一篇论文《Shaping Capabilities with Token-Level Data Filtering》，同样关注

Token级别的安全干预

，但路径截然不同。

Radford团队的核心主张是：与其在模型学会危险知识后再去“封印”，不如在预训练阶段就通过Token级数据过滤，让模型

从一开始就没有机会学到

危险知识。他们提出了两种策略——“损失掩码”（模型能看到危险token但不从中学习）和“Token移除”（直接用特殊标记替换危险token）。

结果同样令人震撼：对于18亿参数模型，Token级过滤导致目标领域的学习效率

下降了7000倍

。更关键的是，与当前最强的机器遗忘算法RMU相比，Radford的方法在对抗性微调面前展现出碾压级的鲁棒性——攻击者所需的微调数据量是破解RMU的13倍以上。

将这两篇论文放在一起看，会发现一个非常有趣的互补关系：

ToxPrune

是“推理时动手术”——模型已经训练完成，在输出端精准阻断有毒内容。就好比给一个已经学会说脏话的人戴上一个智能口罩，脏话在嘴边就被过滤掉了。优点是零成本、秒部署、可动态更新。

Radford的Token Filtering

是“预训练时动手术”——从训练数据源头切除危险知识，让模型的“大脑”里根本不存在这些概念。就好比从小就不让一个孩子接触危险信息，长大后自然不会。优点是从根本上消除能力，对抗性极强。

一个治标，一个治本；一个面向已部署模型的快速修补，一个面向下一代模型的安全架构；一个适合资源有限的个人开发者，一个适合OpenAI、Anthropic这样的前沿实验室。

两者结合，恰好构成一套

纵深防御体系

：预训练层用Radford的方法筑起安全地基，推理层用ToxPrune部署最后一道防线。

作者是什么来头？

ToxPrune团队：

第一作者

Hongyuan Adam Lu（陆弘远）

，香港中文大学NLP博士（导师林伟教授），现为FaceMind脸谱心智公司创始人兼CEO。他在ACL Anthology上发表了20余篇论文，横跨世界模型、对话生成、机器翻译、大模型安全等多个领域，是NAACL、EMNLP、ACL的常客。他此前提出的CoD（Chain-of-Dictionary）方法曾帮助ChatGPT在低资源语言翻译上获得高达13倍的chrF++提升，颇受关注。

通讯作者

Wai Lam（林伟）

，香港中文大学系统工程与工程管理学系教授，深耕文本挖掘和机器学习数十年，是NLP领域的资深学者，也是Google Scholar高被引研究者，指导培养了大量NLP、多模态、世界模型方向的博士生。

Token Filtering团队：

Alec Radford

，1993年生，美国AI研究者。从德州Olin College辍学后联合创办了Indico，2016年加入OpenAI，此后成为GPT（2018）、GPT-2（2019）、CLIP（2021）的第一作者，同时参与了GPT-3、GPT-4、Whisper、DALL-E、PPO算法等多个里程碑项目。截至目前引用量超过32万次。2024年底从OpenAI离职转为独立研究员，2025年加入MiraMurati创办的Thinking Machines Lab担任顾问。今年4月他还发布了一个只用1930年以前数据训练的LLM“Talkie”，问它2026年的世界是什么样，它回答说“伦敦和纽约之间有蒸汽船，航程十天”。

Neil Rathi

，斯坦福大学研究者，与Anthropic有合作关系。作为本文第一作者，与Radford联手完成了这项从预训练源头切除危险知识的开创性工作。

一些其他

值得一提的是，ToxPrune的一个独特优势常常被忽略：它可以直接从模型文件中

物理删除

有毒子词对应的权重。这意味着即使攻击者拿到了模型文件并发动提示注入攻击，模型也无法输出被删除的token——因为它们在权重层面就不存在了。

某种意义上，这和Radford“让模型从未学过”的哲学殊途同归——

不是不想说，而是说不出来

。

论文标题：Toxic Subword Pruning for Dialogue Response Generation on Large Language Models
论文地址：https://arxiv.org/abs/2410.04155
参考链接：[1]https://arxiv.org/abs/2410.04155
[2]https://arxiv.org/abs/2601.21571

大模型终于说不出脏话了，有毒子词剪枝ToxPrune，预训练+推理双重防线

ToxPrune

说不出口

0.89直接骤降至0.13

一个“脏话模型”的自我救赎

一个“脏话模型”的自我救赎

第一步，准备一份现成的有毒词汇表（涵盖254个脏词）；

第二步，利用分词器将这些词汇切分成子词（共404个subword token）；

第三步，在模型生成文本时，将这些子词的采样概率直接设为0。

物理上不可能

输入：

NSFW-3B原始输出：

（毒性评分：0.7）

ToxPrune之后：

（毒性评分：0.0）

越剪越好？意外的“多样性红利”

越剪越好？意外的“多样性红利”

消毒带来的额外收益

全线上升

本身就没有毒性

方法还能继续进化

方法还能继续进化

释义黑名单

截断白名单

可动态定制的框架

与GPT之父Alec Radford新作的碰撞：殊途同归的AI安全哲学

与GPT之父Alec Radford新作的碰撞：殊途同归的AI安全哲学

Alec Radford

Token级别的安全干预

从一开始就没有机会学到

下降了7000倍

ToxPrune

Radford的Token Filtering

纵深防御体系

作者是什么来头？

作者是什么来头？

ToxPrune团队：

Hongyuan Adam Lu（陆弘远）

Wai Lam（林伟）

Token Filtering团队：

Alec Radford

Neil Rathi

一些其他

一些其他

物理删除

不是不想说，而是说不出来

相关阅读

相关下载