说实话,我觉得Claude 4.8有点拉
就在今天凌晨,Anthropic 悄悄掏出了他们最新的 Claude Opus 4.8。距离 Opus 4.7 发布才过去一个多月,Claude 的更新节奏明显提速了。
按理说,4.8 这种小版本更新,大家通常不会太当回事。但这次,事情似乎没那么简单——不少人怀疑 Opus 4.8 可能“蒸”了,蒸的还是 DeepSeek 和千问。通过 API 问它“你是什么模型”“你背后是哪家公司”,得到的回复一会儿是“通义千问”,一会儿是“深度求索”。之前无凭无据地指责中国模型蒸馏 Claude,结果现在自己被抓了小辫子,Anthropic 这操作,属实有点尴尬。
当然,蒸没蒸是一回事,好不好用是另一回事。只不过在正式试用之前,Opus 4.8 已经先蒙上了一层怀疑的滤镜。
根据官方博客,这次 Opus 4.8 的改动并不大。最显著的改进之一,就是变得更“诚实”了。换句话说,那种莫名自信、嘴硬之后又来一句“对不起,我之前说错了”的情况,发生的概率会大大降低。

另外,它在做 Agent 任务时据说会更可靠,判断力更强,能自己发现问题、提出异议,用最终最好的答案稳稳接住你。从性能表上看,Opus 4.8 各方面只是小有提升,没什么特别出彩的地方——其中一个 coding 指标甚至打不过两个月前的 GPT-5.5。

实际用户的反馈也褒贬不一。有人表示它确实变诚实了,不会轻易不查资料乱讲,经常自我反思,干活主动稳定,安全性也有明显提升。但也有人说它依然不如白月光 Opus 4.6,语言表达的人味儿还没回来,token 消耗却飞快,甚至不少人在 coding 时发现它依然会乱讲,和 Opus 4.7 没什么变化。

亲自上手实测之后,倒不是觉得 Opus 4.8 不好,而是得问一句:代价是什么?就拿它的“诚实”特性来说,面对一些比较危险的问题,它确实考虑周到不乱讲,但也变得极其保守。比如拿一张毒蘑菇照片问它能不能吃,它的思考过程相当客观冷静。

但在一些安全项里,它表现得过度谨慎。即使推测大概率没毛病,也只会说“我的顾虑小了很多,但也可能是剧毒菌撞脸”。这当然是负责任的——真有人照着 AI 的话去采蘑菇,那可不是闹着玩的。但从用户体验来说,很多问题得不到确定的答复,句句都是 AI 给自己叠的甲,相当难受。

另外,想要 Opus 4.8 保持水准,最好不要尝试 High 以下的性能(effort)。高消耗,才有好表现。比如新闻总结这种很基础的活儿,Opus 4.8 在 Low 模式下给出的第一条新闻就是错的:Sholto Douglas 发那条动态已经是三天前的事,连自家的新闻都搞错。想让它做事实核查,还得再追问一遍——说好的主动检查、用最准确的答案稳稳接住呢?


接着测了一下代码能力。常规的 leetcode 困难算法题对 Opus 4.8 已经不成问题。但找了一个超难题 LCP 82 丢给它,即使开 Extra 模式,123 行代码也足足思考了二十多分钟。结果确实不错,一遍就过,思考出第一版代码还复查优化了一遍,现在能做到这种程度的模型并不多。

作为对比,GPT-5.5 思考了两分钟,就给出一个测试案例通过 99% 的答案,唯一一个失败的原因是时间超限,其实不算答错。这明显比 Opus 4.8 省得多。

又尝试让 Opus 4.8 独立制作一个日式校园 galgame。不得不说,现在 AI 写的项目代码层次分明、框架清楚,在其基础上改立绘、加剧情、把游戏做大做强都很容易。浅玩了一下,所有功能包括存档、自动播放、CG 画廊等,没有任何 bug。

但是 Claude 断断续续做了足足一个多小时。而 GPT-5.5 虽然简陋很多,该有的功能一样不差,只用了五分钟。花更多的钱和时间换来的答案值不值得?恐怕只有每个人自己心里清楚了。
总的来说,Opus 4.8 继承了 Claude 过往的强项,没有特别出色的表现,平平常常普普通通。而在测试之后,最想说的反而不是这个模型本身怎么样,而是现在用个 Claude,也太小心翼翼了。作为业界价格的巅峰,用 Claude 最好的模型不舍得开最好的性能;开最高的性能又不舍得用最好的模型。处处是陷阱,在你不注意的时候,无关紧要的小问题已经把 token 烧光了。而且让用户自己选性能,Low 和 High 也就算了,这次 Opus 4.8 一口气推出了 5 种档位——Low、Medium、High、Extra、Max,普通人真搞不明白什么时候用哪个,很容易造成浪费。

现在 Opus 4.8 相关的评论区里,不少人陷入了 Opus 4.6 下架的恐慌。别担心,在更多模型里,老模型还在,想用还能用到。但坦白讲,这种“负优化”不仅仅是 Anthropic 一家的困境,不少厂商都透着一股新不如旧的无奈。虽然交出的参数答卷越来越漂亮,可那些曾经让用户感到惊艳的极致体验,又什么时候才能回来呢?