首页 > 教程攻略 > web3.0 >Anthropic发布Fable 5模型的安全防护措施及AI“越狱”行为评估框架

Anthropic发布Fable 5模型的安全防护措施及AI“越狱”行为评估框架

来源:互联网 时间:2026-07-03 18:12:27

就在7月3日,Anthropic扔出了一份关于AI安全的重磅文件——一套评估人工智能“越狱”行为严重程度的框架,同时披露了已经在全球上线的最新模型Claude Fable 5所采用的网络安全防护措施。这份文件的核心,是把网络安全相关的使用场景划成了四个等级,从“绝对禁止”到“完全无害”。被直接拉黑的用途包括勒索软件开发、恶意软件编写,以及针对网络—物理基础设施的破坏活动。而对于渗透测试这类“双刃剑”属性的高风险操作,在更完善的控制机制落地之前,也会被果断拦截。

怎么量化这些越狱行为的危害?Anthropic提出的评级体系叫“Cyber Jailbreak Severity”(网络越狱严重程度),缩写CJS,从0级到4级共分五档。评估维度则锁定在四个方面。更重要的是,他们还同步上线了HackerOne项目,直接向全球安全研究人员开放——你们来提交潜在的模型越狱案例,我们来评估、来堵漏。这招“开门请黑客”的思路,倒是颇有几分互联网安全社区的经典味道。

从行业视角来看,这份框架的价值不止在于技术细节。它实际上是在给“AI安全治理”这个混沌地带划定可操作的坐标。过去大家讨论大模型风险,常常停留在“很危险”或“没关系”的二元争论里,缺少中间状态。现在有了CJS-0到CJS-4的五级标尺,至少业界可以开始用同一把尺子量问题——这不仅便于企业内部风控,也为监管沟通提供了技术语言基础。当然,框架只是起点,真正考验的还在落地执行上。

Anthropic发布Fable 5模型的安全防护措施及AI“越狱”行为评估框架