代码硬伤狂减75%!Anthropic推出Claude Opus 4.8,速度飙升2. 5 倍力压行业竞品
来源:互联网
时间:2026-05-29 10:43:49
最近AI圈有个大消息——Anthropic默默放出了旗舰模型Claude Opus的微调升级版4.8。这次升级的核心方向很明确:智能体编程、多领域推理以及知识工作能力。更关键的是,新模型在多项核心基准测试里直接反超了GPT-5.5,还顺手解决了一个行业老难题——AI“睁眼说瞎话”。

编程缺陷锐减且判断更敏锐
早期测试方的反馈很有意思:Opus 4.8在处理复杂多步骤任务时稳得多。官方数据表明,新模型放任自己代码里有缺陷却不说的情况,概率直接下降了四分之三。换句话说,它现在更愿意主动标出自己的不确定性——不仅能自己识别错误,碰到用户的初始计划明显不合理,还会果断提出异议。这种“敢说真话”的改进,对开发者而言无疑是好消息。
速度狂飙且开发成本直降七成
逻辑严密性提升的同时,运行效率也没落下。Opus 4.8的快速模式速度直接飙到以前的2.5倍,使用成本却压到了老版本的三分之一。在行业公认的SWE-Bench Pro编程基准测试中,它拿下了69.2%的高分,多个核心维度上成功压制Gemini 3.1 Pro等强劲对手。可以说,这次升级既“聪明”又“便宜”,实际落地的价值相当可观。