首页 > 教程攻略 > ai资讯 >网络安全研究人员质疑Anthropic Fable安全护栏过于严格

网络安全研究人员质疑Anthropic Fable安全护栏过于严格

来源：互联网时间：2026-06-11 13:06:43

这周二，Anthropic正式把新模型Fable推向了公众，官方给它的定位是内部高阶网络安全模型Mythos的“公共、受限版”。然而，这个产品刚一露面，就在网络安全圈里炸了锅——不少安全研究人员和从业者在社交平台和社区里抱怨，说Fable内置的安全护栏严得离谱，几乎没法在正经的安全工作中派上用场。

根据研究人员的反馈，Fable会对“任何哪怕稍微沾点网络安全边”的请求直接说“不”，甚至包括一些看起来完全无害的任务，比如帮忙读一篇博客文章。安全研究员Valentina “Chompie” Palmiotti表示，Fable会直接中止对话，跳出一段提示，说它的安全机制已经把那句话标记成了“涉及网络安全或生物学主题”。设计这些护栏的初衷当然可以理解——防止模型被用来写恶意软件、搞攻击或者破坏软件系统，同时也限制它在生物学领域被滥用去辅助研发生物武器。

话说回来，Anthropic在今年4月发布Mythos的时候，走的是“Project Glasswing”计划，只面向少量企业和机构开放，意图是借助这个模型去保护关键软件和基础设施。上周，他们又把Mythos的使用范围扩展到了15个国家的数百家机构，进一步推动这类高能力安全模型在关键行业落地。但到了Fable面向公众开放后，这个“降配版”的安全策略立马遭到了专业用户的强烈质疑——不少人觉得实际体验跟最近的宣传之间落差实在有点大。

长期做网络安全工作的Matt Suiche指出，Fable在判断一个请求是不是跟网络安全相关时，表现得非常生硬。他举了个例子：如果你提出“写安全代码”的需求，Fable会倾向于把它当作网络安全工作来处理，而不是当作软件工程最佳实践指导，然后直接触发降级机制。一旦护栏被触发，Fable就自动退回到能力更弱的Claude Opus 4.8来继续对话。Suiche认为，Fable的判断逻辑高度依赖关键词，“只要落在‘网络安全’这个语义场里的词，很容易就被安全系统拦截”。

不过，Suiche也对现阶段这么严苛的设置表示了一定程度的理解。他认为，在这个早期阶段，厂商给模型施加更保守的安全阈值，在风险控制上确实更有保障。他预计，随着Anthropic跟新一代网络安全公司加深合作，这些护栏会不断优化和微调。在他看来，与其一开始放得太松导致潜在滥用风险失控，不如先“多拦一些”再逐步放宽限制——这个路径更可接受。

对Fable表达不满的可不止一个人。另一位研究人员在社交平台上吐槽说，“就连请求它做代码审查，也会触发安全护栏”。有用户在Reddit的Claude相关社区里分享经验，说Fable在面对安全审计、漏洞分析这类请求时几乎“清一色拒绝”，严重影响它在专业环境中的实用性。截至发稿，Anthropic还没有就这些反馈作出公开答复。

除了模型内部自动的护栏机制，Anthropic还为网络安全从业者设置了一道额外的准入程序——“网络安全验证计划”。只有通过这个计划审核的用户，才能在更少限制的条件下用Claude做网络安全相关工作。类似地，OpenAI也推出了一个叫“Trusted Access for Cyber”的项目，为合规的网络安全实践开放更多模型能力。这些做法其实反映了一个现实：前沿模型公司在推进AI赋能网络安全的同时，仍然试图用审核制度和技术护栏双重手段，来平衡能力释放和滥用风险的关系。

网络安全研究人员质疑Anthropic Fable安全护栏过于严格

相关阅读

相关下载