Opus 4.7赢了Coding,Codex想赢一切
4月16日:Claude Opus 4.7发布,但掌声为何稀落?
4月16日,Anthropic如期发布了Claude Opus 4.7。然而,与以往“代码之王”加冕时的满堂喝彩不同,这次社区的反馈显得复杂而微妙。
通稿上的数据依然亮眼:在93项代码基准任务上比4.6版提升了13%,解决了前代模型都束手无策的四道难题,低思考档位的性能已大致追平4.6的中等档。价格维持不变,每百万输入Token 5美元,输出25美元。硬指标对比图上,它依然稳稳压过ChatGPT 5.4和Gemini 3.1 Pro。
但漂亮的基准测试分数之外,真实世界的体感却是另一番景象。
一边是过去几周用户对Opus 4.6“变笨”的激烈声讨仍在回荡;另一边,Anthropic在同一天亲口承认,4.7依然无法超越自家那个仍处于预览阶段的传奇模型“Mythos Preview”。更让开发者感到困扰的,是Opus 4.7身上那种“更听话,却也更死板”的新气质。以往针对旧模型设计的、留有一些模糊空间的提示词(Prompt),现在常常跑出意料之外的结果,迫使开发者不得不回头重写整个提示词库。
沃顿商学院教授Ethan Mollick则提出了一个更尖锐的批评。他发现Opus 4.7的“自适应思考”机制存在一种偏见:倾向于将非代码、非数学任务默认归类为“低努力”档位,在分析、写作、研究等场景中直接“偷懒”,导致产出质量有时甚至不如前一代。
这不禁让人感慨:AI公司是否陷入了一种“只有技术工作才算智力工作”的认知偏差?

风水轮流转。
就在同一天,老对手OpenAI更新了Codex,并喊出一句新的口号:“Codex for (almost) everything”(Codex,为了几乎一切)。
这无异于一次精准的反击。翻译过来就是:在你们专注的“编码”范式下,曾经被压制的OpenAI现在宣布,代码只是入口,我们要“卷”的是一台能操作你整台电脑、能浏览网页、能生成图像、能跨Slack/Gmail/Notion抓取上下文、能在后台并行开启多个分身的超级工作台。更扎心的是,有数据显示,GPT系列的编码能力在过去一年里已经快速追赶上来了。
当Anthropic继续在“最强编码模型”的单一条赛道上加码时,它在开发者心智中构筑的那道护城河,宽度可能正在被悄然侵蚀。
01 价格账、鹈鹕和真实体感
01 价格账、鹈鹕和真实体感
落到产品层面,开发者每天打交道的就是两件具体的事:价格,以及实战手感。而在这两件事上,Opus 4.7这次似乎没拿到预想中的高分。
先说价格。
再看手感。
在真实的编程环节,用户@SnazzyLabs总结出了一个精准的差异:Claude Opus擅长“打磨”代码和抓住设计精髓,但在根据描述性文本执行具体、明确的编码任务时,由GPT-5.4驱动的Codex则表现得更出色、更直接。
用户@Stardustmemory的批评则更为严厉,他指出Opus 4.7在本该追求简洁的地方,会凭空制造出不必要的复杂性,导致他甚至不想续订服务,因为Codex往往能更高效地重写Opus生成的冗长计划。

知名爆料人@apples_jimmy观察到,由于Anthropic长期以来对AGI(通用人工智能)概念的预告和渲染,拉高了用户对Opus 4.7的期望值。这种“炒作后的失望”情绪,构成了社交媒体上大约80%的负面评论。

网友@johnhelmuth_也认为,大家觉得Opus 4.7表现平平,很大程度上是因为它没有像Opus 4.6发布时那样,带来那种“开创性”的震撼体验。
02 编码之战,战场已经转移
02 编码之战,战场已经转移
Opus被贴上的标签是“编码王者”,但今天的编码竞争,早已不是单纯的模型能力比拼。这场竞赛可以拆解为三个层次,而这三层的权重正在发生剧烈变化。
第一层是模型能力层,
第二层是任务能力层,
第三层是系统能力层,
而4月16日,OpenAI直接将Codex推向了第三层:它能在macOS上查看屏幕、点击、打字;能同时开启多条分身在后台处理任务;内置浏览器,可以直接对网页元素进行评论和操作;接入图像模型,可以边写代码边出设计稿甚至游戏素材;一口气集成111个插件,连通Slack、Gmail、Notion、GitHub等核心工具。
这已经不再是一个单纯的编码助手,更像是一个初具雏形的“开发者操作系统”。
03 编码与智能体:为什么这里是必争之地?
03 编码与智能体:为什么这里是必争之地?
在所有AI智能体可能落地的垂直场景中,编码是那个最快成熟、最先产生商业价值、也最容易形成闭环的领域。
原因有三。首先,代码任务
天然可验证
天然是多步骤的
买单方最为清晰
编码赛道的天花板,甚至超出了之前的普遍预期。互联网时代,大家习惯用日活跃用户来衡量科技公司的地位,但在智能体时代,这个指标正在失去意义。如果一个智能体在后台连开十个分身,连续运行三天,它创造的价值远非十次“日活”可以衡量。衡量单位正从“日活”转向“任务完成量”和“托管工作流数”。而编码,正是最早出现这种新价值计量方式的场景。
OpenAI曾在这条赛道上出现误判,而Anthropic持续的增长曲线则证明了这条赛道拥有超高的天花板。这也解释了为何连一直优先发展搜索和Workspace的Google,本月也在Gemini Code Assist上动作频频。如果在编码这个核心入口掉队,未来整个智能体生态都可能将你排除在外。
一个关键的判断是:在编码上领先,不等于自动赢得整个智能体战争;但在编码上失去阵地,则几乎等于失去了智能体竞争的全部筹码。
OpenAI Codex负责人Thibault Sottiaux在发布会上的表态毫不掩饰:“我们正在公开构建那个超级应用,这次面向开发者,未来会扩展到更广泛的受众。”翻译过来就是:
编码,只是我们推出超级智能体工作台的第一个楔子。用付费意愿最强的开发者群体完成冷启动,等形态跑通,同一套架构便能服务所有知识工作者。
Codex目前拥有每周300万活跃开发者,这早已远超一个“代码助手”的体量,它正在成为争夺操作系统级入口的产品。清醒过来的OpenAI,绝不甘心只做Anthropic的追随者。
简而言之,Anthropic在守卫王座,而OpenAI正试图将竞争拉入一个全新的维度。
04 基因迥异的“同城德比”
04 基因迥异的“同城德比”
这两家渊源颇深的老对手,步伐几乎从未一致,组织性格也截然不同。
Anthropic是一家自上而下、战略高度聚焦、带有强烈技术信仰的公司。
它的产品线很窄:Claude系列模型、Claude Code、Claude.ai、有限的API生态。服务的是最顶尖的专业用户:最困难的编程任务、最复杂的企业知识工作、最前沿的智能体开发者。整个组织的叙事从一个清晰的顶层理念向下推导:AI安全是首要原则,模型本体是一切之源,把模型做到极致,其他问题自然迎刃而解。Amodei兄妹身上那种“我们是一个从事前沿AI科学研究的实验室”的气质,贯穿于每一个产品决策。
这种打法让每一代Claude都成为“更稳健、更深入、更可托付”的迭代,“最懂工程师的模型”这一心智在社区中坚如磐石。
但代价也同样明显。
它的战略聚焦,在单一维度内是优势,在跨维度竞争中就可能成为盲区。
OpenAI看起来则更像一家大公司,内部奉行自下而上的赛马机制。
从ChatGPT到Sora,从Codex到Atlas浏览器,从Canvas到正在开发的Mac超级应用,OpenAI的产品序列宽得惊人,甚至宽到了战略似乎不够聚焦的程度。Sora上线半年即关停,Shopping项目也未跑通,许多人因此批评其战略发散。
然而,这种“不聚焦”的背后,是一种外部看来“混乱”、内部实则充满活力的模式:
大公司的外壳,小团队的创业内核,自下而上的提案机制,内部项目通过赛马争夺资源。这种模式固然会带来资源消耗,但也确实催生了从0到1的突破性创新。
可以说,Anthropic将“聚焦”视为核心优势,而OpenAI则将“不设限”作为自己的优势。
05 Anthropic,还是永远的编码之王吗?
05 Anthropic,还是永远的编码之王吗?
如果赛道的定义仍然是“谁的模型写代码最强”,那么Anthropic在短期内几乎找不到对手。
但问题在于,“编码之王”这个定义本身正在被快速改写,并且有两个变量在加速这一进程。
第一个变量是算力。
这是范式级别的变量,Anthropic再聚焦、再高效,也难以完全抵消。
第二个变量是迭代速度。
这并非否定Anthropic的价值。Claude Code在资深开发者圈子里的口碑不会一夜崩塌,Anthropic“持续稳定输出顶尖模型”的能力,在这个快速变化的行业里本身就是一种稀缺资产。但必须承认,AI领域的竞争,赛道切换得太快了。
在这个行业,没人敢轻言终局。
4月16日,AI行业又度过了充满意味的一天。也许,改变的种子又一次悄然萌芽。