首页 > 教程攻略 > ai资讯 >网络安全研究人员质疑Anthropic Fable安全护栏过于严格

网络安全研究人员质疑Anthropic Fable安全护栏过于严格

来源:互联网 时间:2026-06-11 13:06:43

这周二,Anthropic正式把新模型Fable推向了公众,官方给它的定位是内部高阶网络安全模型Mythos的“公共、受限版”。然而,这个产品刚一露面,就在网络安全圈里炸了锅——不少安全研究人员和从业者在社交平台和社区里抱怨,说Fable内置的安全护栏严得离谱,几乎没法在正经的安全工作中派上用场。

网络安全研究人员质疑Anthropic Fable安全护栏过于严格

根据研究人员的反馈,Fable会对“任何哪怕稍微沾点网络安全边”的请求直接说“不”,甚至包括一些看起来完全无害的任务,比如帮忙读一篇博客文章。安全研究员Valentina “Chompie” Palmiotti表示,Fable会直接中止对话,跳出一段提示,说它的安全机制已经把那句话标记成了“涉及网络安全或生物学主题”。设计这些护栏的初衷当然可以理解——防止模型被用来写恶意软件、搞攻击或者破坏软件系统,同时也限制它在生物学领域被滥用去辅助研发生物武器。

话说回来,Anthropic在今年4月发布Mythos的时候,走的是“Project Glasswing”计划,只面向少量企业和机构开放,意图是借助这个模型去保护关键软件和基础设施。上周,他们又把Mythos的使用范围扩展到了15个国家的数百家机构,进一步推动这类高能力安全模型在关键行业落地。但到了Fable面向公众开放后,这个“降配版”的安全策略立马遭到了专业用户的强烈质疑——不少人觉得实际体验跟最近的宣传之间落差实在有点大。

长期做网络安全工作的Matt Suiche指出,Fable在判断一个请求是不是跟网络安全相关时,表现得非常生硬。他举了个例子:如果你提出“写安全代码”的需求,Fable会倾向于把它当作网络安全工作来处理,而不是当作软件工程最佳实践指导,然后直接触发降级机制。一旦护栏被触发,Fable就自动退回到能力更弱的Claude Opus 4.8来继续对话。Suiche认为,Fable的判断逻辑高度依赖关键词,“只要落在‘网络安全’这个语义场里的词,很容易就被安全系统拦截”。

不过,Suiche也对现阶段这么严苛的设置表示了一定程度的理解。他认为,在这个早期阶段,厂商给模型施加更保守的安全阈值,在风险控制上确实更有保障。他预计,随着Anthropic跟新一代网络安全公司加深合作,这些护栏会不断优化和微调。在他看来,与其一开始放得太松导致潜在滥用风险失控,不如先“多拦一些”再逐步放宽限制——这个路径更可接受。

对Fable表达不满的可不止一个人。另一位研究人员在社交平台上吐槽说,“就连请求它做代码审查,也会触发安全护栏”。有用户在Reddit的Claude相关社区里分享经验,说Fable在面对安全审计、漏洞分析这类请求时几乎“清一色拒绝”,严重影响它在专业环境中的实用性。截至发稿,Anthropic还没有就这些反馈作出公开答复。

除了模型内部自动的护栏机制,Anthropic还为网络安全从业者设置了一道额外的准入程序——“网络安全验证计划”。只有通过这个计划审核的用户,才能在更少限制的条件下用Claude做网络安全相关工作。类似地,OpenAI也推出了一个叫“Trusted Access for Cyber”的项目,为合规的网络安全实践开放更多模型能力。这些做法其实反映了一个现实:前沿模型公司在推进AI赋能网络安全的同时,仍然试图用审核制度和技术护栏双重手段,来平衡能力释放和滥用风险的关系。