首页 > 教程攻略 > ai资讯 >刚刚，Anthropic发布Sonnet 5，性能接近Opus 4.8，但不一定更便宜

刚刚，Anthropic发布Sonnet 5，性能接近Opus 4.8，但不一定更便宜

来源：互联网时间：2026-07-01 15:49:18

Anthropic 刚刚放出了新模型

Claude Sonnet 5

，官方的定位很有意思——「迄今为止最具 Agent 属性的 Sonnet 模型」。换句话说，它能自己制定计划、调用浏览器和终端，甚至自主完成一些过去需要更大、更贵模型才能搞定的任务。对于一直在关注 Agent 方向的人来说，这显然是个大动作。

话说从基准数据看，Sonnet 5 在推理、工具使用、编程和知识工作这些核心维度上，相比上一代 Sonnet 4.6 提升相当明显，已经接近 Opus 4.8 的水平，但价格却低了一截。也就是说，你花更少的钱，能拿到几乎跟旗舰级 Opus 一样强的 Agent 能力。

Anthropic 还特意回顾了一下：Agent 时代其实是从 Sonnet 级模型开始的——Claude Sonnet 3.5、3.6 和 3.7 最早在编程和工具使用上做出了亮眼表现。只是最近一段时间，最强的 Agent 能力主要出现在 Opus 级模型上。而这次 Sonnet 5 明显把差距拉近了。具体对比如下：

再看智能体搜索评测 BrowseComp 和 computer use 评测 OSWorld‑Verified 的表现，不同「努力程度」下 Sonnet 5 的曲线很有意思：

橙色线（Sonnet 5）相比灰色线（Sonnet 4.6）有明确提升，而且覆盖的成本‑性能选项范围比黄色线（Opus 4.8）更广。
在中等努力程度下，Sonnet 5 的成本效率显著优化；往高努力程度走，某些任务甚至能媲美 Opus 4.8。
用户可以根据具体任务灵活调整努力程度，在 Sonnet 5 和 Opus 4.8 之间找到最适合自己的平衡点。

这里多说一句定价：Sonnet 5 标准价格是输入 $3/百万 token、输出 $15/百万 token。但直到 8 月 31 日有尝鲜价——输入 $2、输出 $10，这样一来实际成本比图上显示的更低。而 Opus 4.8 的定价是输入 $5、输出 $25，差距一目了然。

来自早期访问合作伙伴的反馈也很一致：Sonnet 5 比前代模型更具自主智能体能力。测试者说它能完成那些之前 Sonnet 模型做到一半就卡住的复杂任务，会主动检查自己的输出，而且价格非常有吸引力。

安全评估

部署前安全评估显示，Sonnet 5 整体安全性比 Sonnet 4.6 有所改善——在拒绝恶意请求、抵御提示注入攻击方面表现更好，幻觉率和谄媚行为率也降低了。自动化行为审计中，Sonnet 5 的失当行为率整体更低。

不过必须指出的是，相比能力更强的 Opus 4.8 和 Claude Mythos Preview，它在某些维度上失当行为率仍然略高。

Anthropic 还特意强调：他们并没有针对网络安全任务训练 Sonnet 5。模型能执行一些常规的无害网络任务，但在评估危险网络技能（比如开发软件漏洞利用程序）时，表现显著弱于 Opus 4.8 和 Mythos 5。下图展示了针对 Firefox 漏洞的评估结果：

两款 Sonnet 模型都未能成功开发出可利用程序（得分 0.0%），Sonnet 5 的部分成功率略高于 Sonnet 4.6。因此 Anthropic 默认开启了与 Opus 4.7/4.8 相同的网络安全护栏，但严格程度低于 Fable 5 那种更激进的拦截方案。

完整评估报告可参考《Claude Sonnet 5 系统卡》。

定价

今天起，Claude Sonnet 5 已在所有渠道可用。限时优惠首发价到 2026 年 8 月 31 日截止：输入 $2/百万 token，输出 $10/百万 token。之后恢复标准价：输入 $3、输出 $15。

同时，Chat、Cowork、Claude Code 及 Claude 平台的速率限制也全面上调，以适配更高「努力程度」模式带来的更大 token 消耗。

注意事项

网络安全验证

Sonnet 5 已纳入 Anthropic 的「网络安全验证计划」。该计划现已在 Claude 原生平台、AWS 上的 Claude 平台、Microsoft Foundry 中的 Claude 开放使用。Google Vertex 上的 Claude 也将很快支持。已加入该计划的组织自动获得访问权限，无需重新申请。

tokenizer 更新与定价说明

Sonnet 5 采用了全新 tokenizer，与 Opus 4.7 类似的优化。带来的直接变化是：相同输入内容现在会映射为更多 token，增幅约 1.0～1.35 倍。所以 Anthropic 特意给出了尝鲜价，让用户过渡时整体使用成本大致保持不变。

速率限制调整说明

早在 2026 年 4 月 26 日，Anthropic 已针对 Sonnet 和 Haiku 模型上调了速率限制，并将原生 Claude 平台套餐简化为三个层级：Start、Build、Scale。这次更新进一步上调了 Chat、Cowork 等服务的限制，以配合更高努力程度模式的 token 消耗。具体可在 Claude Console 查看。

评测分数更正说明

Humanity’s Last Exam：
更新评分模型后，Sonnet 4.6 分数修正为 34.6%（无工具）和 46.8%（有工具）。
OSWorld‑Verified：
优化运行方式后，Sonnet 4.6 分数修正为 78.5%。

开发者上手反馈

Claude Sonnet 5 一发布，社区立刻开始上手体验。网友 Nicolas Bustamante 很喜欢它的速度和 Agent 优化，尤其提到浏览器使用：又快又安全。系统卡数据显示，浏览器使用场景下的提示注入攻击成功率，Sonnet 5 只有 0.93%，而 Opus 4.8 是 31.5%，Sonnet 4.6 是 50.7%。

当然也有吐槽——「太贵了。」根据 Artificial Analysis 的分析，Claude Sonnet 5 在 Intelligence Index 上的运行成本为每项任务 2.29 美元，相比 Sonnet 4.6 增加约 2 倍，甚至比 Claude Opus 4.8 还高出约 15%。这一成本上升主要来自 token 使用量的增加，使其成为运行成本最高的模型之一，仅次于 Claude Fable 5。