首页 > 教程攻略 > ai资讯 >Opus 4.7赢了Coding,Codex想赢一切

Opus 4.7赢了Coding,Codex想赢一切

来源:互联网 时间:2026-07-03 14:55:56

4月16日:Claude Opus 4.7发布,但掌声为何稀落?

4月16日,Anthropic如期发布了Claude Opus 4.7。然而,与以往“代码之王”加冕时的满堂喝彩不同,这次社区的反馈显得复杂而微妙。

通稿上的数据依然亮眼:在93项代码基准任务上比4.6版提升了13%,解决了前代模型都束手无策的四道难题,低思考档位的性能已大致追平4.6的中等档。价格维持不变,每百万输入Token 5美元,输出25美元。硬指标对比图上,它依然稳稳压过ChatGPT 5.4和Gemini 3.1 Pro。

但漂亮的基准测试分数之外,真实世界的体感却是另一番景象。

一边是过去几周用户对Opus 4.6“变笨”的激烈声讨仍在回荡;另一边,Anthropic在同一天亲口承认,4.7依然无法超越自家那个仍处于预览阶段的传奇模型“Mythos Preview”。更让开发者感到困扰的,是Opus 4.7身上那种“更听话,却也更死板”的新气质。以往针对旧模型设计的、留有一些模糊空间的提示词(Prompt),现在常常跑出意料之外的结果,迫使开发者不得不回头重写整个提示词库。

沃顿商学院教授Ethan Mollick则提出了一个更尖锐的批评。他发现Opus 4.7的“自适应思考”机制存在一种偏见:倾向于将非代码、非数学任务默认归类为“低努力”档位,在分析、写作、研究等场景中直接“偷懒”,导致产出质量有时甚至不如前一代。

这不禁让人感慨:AI公司是否陷入了一种“只有技术工作才算智力工作”的认知偏差?

风水轮流转。

就在同一天,老对手OpenAI更新了Codex,并喊出一句新的口号:“Codex for (almost) everything”(Codex,为了几乎一切)。

这无异于一次精准的反击。翻译过来就是:在你们专注的“编码”范式下,曾经被压制的OpenAI现在宣布,代码只是入口,我们要“卷”的是一台能操作你整台电脑、能浏览网页、能生成图像、能跨Slack/Gmail/Notion抓取上下文、能在后台并行开启多个分身的超级工作台。更扎心的是,有数据显示,GPT系列的编码能力在过去一年里已经快速追赶上来了。

当Anthropic继续在“最强编码模型”的单一条赛道上加码时,它在开发者心智中构筑的那道护城河,宽度可能正在被悄然侵蚀。

01 价格账、鹈鹕和真实体感

落到产品层面,开发者每天打交道的就是两件具体的事:价格,以及实战手感。而在这两件事上,Opus 4.7这次似乎没拿到预想中的高分。

先说价格。

Opus 4.7名义单价与4.6持平,但换用了新的分词器(Tokenizer)。这意味着,处理同样一段文本,消耗的Token数量可能增加1到1.35倍;同时,使用更高思考档位也会消耗更多Token。结果是,账面价格没涨,实际账单却可能悄然上扬。相比之下,有外媒测算,Codex的综合使用成本大约只有Claude Code的三分之一。对于一个每天需要处理海量任务的工程团队而言,这笔账算一遍就足够了。

再看手感。

软件工程专家Simon Willison做了一个极具传播力的测试:让Opus 4.7生成一张“骑自行车的鹈鹕”SVG矢量图。结果,4.7连自行车架的基本形状都画错了,表现甚至输给了在本地笔记本上运行的小参数模型Qwen。Willison调侃道,这虽然是个玩笑测试,但它确实打破了“模型越贵,画画越好”的迷信。

在真实的编程环节,用户@SnazzyLabs总结出了一个精准的差异:Claude Opus擅长“打磨”代码和抓住设计精髓,但在根据描述性文本执行具体、明确的编码任务时,由GPT-5.4驱动的Codex则表现得更出色、更直接。

用户@Stardustmemory的批评则更为严厉,他指出Opus 4.7在本该追求简洁的地方,会凭空制造出不必要的复杂性,导致他甚至不想续订服务,因为Codex往往能更高效地重写Opus生成的冗长计划。

知名爆料人@apples_jimmy观察到,由于Anthropic长期以来对AGI(通用人工智能)概念的预告和渲染,拉高了用户对Opus 4.7的期望值。这种“炒作后的失望”情绪,构成了社交媒体上大约80%的负面评论。

网友@johnhelmuth_也认为,大家觉得Opus 4.7表现平平,很大程度上是因为它没有像Opus 4.6发布时那样,带来那种“开创性”的震撼体验。

02 编码之战,战场已经转移

Opus被贴上的标签是“编码王者”,但今天的编码竞争,早已不是单纯的模型能力比拼。这场竞赛可以拆解为三个层次,而这三层的权重正在发生剧烈变化。

第一层是模型能力层,

比拼的是原始智力、对工程约束的理解深度。这一层曾是Anthropic坚固的护城河。

第二层是任务能力层,

考验的是谁能端到端地完成真实开发任务:读代码、改代码、调用工具、运行测试、抓取错误、持续迭代。在过去半年,Claude Code是这一层的佼佼者。

第三层是系统能力层,

竞争的是谁能把“写代码”这件事无缝嵌入开发者的整套工作流:接管浏览器、操作桌面、生成界面和图像、连接工单系统、读取设计稿、管理并行任务分身。这一层,至今还没有公认的赢家。

而4月16日,OpenAI直接将Codex推向了第三层:它能在macOS上查看屏幕、点击、打字;能同时开启多条分身在后台处理任务;内置浏览器,可以直接对网页元素进行评论和操作;接入图像模型,可以边写代码边出设计稿甚至游戏素材;一口气集成111个插件,连通Slack、Gmail、Notion、GitHub等核心工具。

这已经不再是一个单纯的编码助手,更像是一个初具雏形的“开发者操作系统”。

03 编码与智能体:为什么这里是必争之地?

在所有AI智能体可能落地的垂直场景中,编码是那个最快成熟、最先产生商业价值、也最容易形成闭环的领域。

原因有三。首先,代码任务

天然可验证

,编译能否通过、测试是否跑通,对错近乎二元。这使其成为强化学习训练最理想的数据源,也让智能体的行为最容易被自动评估和迭代。其次,有价值的编码任务

天然是多步骤的

,符合智能体序列决策的范式。最后,编码的

买单方最为清晰

,一个工程师的年成本动辄数十万美元,用AI替代或放大一部分工时,投资回报率的账很容易算清楚。

编码赛道的天花板,甚至超出了之前的普遍预期。互联网时代,大家习惯用日活跃用户来衡量科技公司的地位,但在智能体时代,这个指标正在失去意义。如果一个智能体在后台连开十个分身,连续运行三天,它创造的价值远非十次“日活”可以衡量。衡量单位正从“日活”转向“任务完成量”和“托管工作流数”。而编码,正是最早出现这种新价值计量方式的场景。

OpenAI曾在这条赛道上出现误判,而Anthropic持续的增长曲线则证明了这条赛道拥有超高的天花板。这也解释了为何连一直优先发展搜索和Workspace的Google,本月也在Gemini Code Assist上动作频频。如果在编码这个核心入口掉队,未来整个智能体生态都可能将你排除在外。

一个关键的判断是:在编码上领先,不等于自动赢得整个智能体战争;但在编码上失去阵地,则几乎等于失去了智能体竞争的全部筹码。

OpenAI Codex负责人Thibault Sottiaux在发布会上的表态毫不掩饰:“我们正在公开构建那个超级应用,这次面向开发者,未来会扩展到更广泛的受众。”翻译过来就是:

编码,只是我们推出超级智能体工作台的第一个楔子。用付费意愿最强的开发者群体完成冷启动,等形态跑通,同一套架构便能服务所有知识工作者。

Codex目前拥有每周300万活跃开发者,这早已远超一个“代码助手”的体量,它正在成为争夺操作系统级入口的产品。清醒过来的OpenAI,绝不甘心只做Anthropic的追随者。

简而言之,Anthropic在守卫王座,而OpenAI正试图将竞争拉入一个全新的维度。

04 基因迥异的“同城德比”

这两家渊源颇深的老对手,步伐几乎从未一致,组织性格也截然不同。

Anthropic是一家自上而下、战略高度聚焦、带有强烈技术信仰的公司。

它的产品线很窄:Claude系列模型、Claude Code、Claude.ai、有限的API生态。服务的是最顶尖的专业用户:最困难的编程任务、最复杂的企业知识工作、最前沿的智能体开发者。整个组织的叙事从一个清晰的顶层理念向下推导:AI安全是首要原则,模型本体是一切之源,把模型做到极致,其他问题自然迎刃而解。Amodei兄妹身上那种“我们是一个从事前沿AI科学研究的实验室”的气质,贯穿于每一个产品决策。

这种打法让每一代Claude都成为“更稳健、更深入、更可托付”的迭代,“最懂工程师的模型”这一心智在社区中坚如磐石。

但代价也同样明显。

它的战略聚焦,在单一维度内是优势,在跨维度竞争中就可能成为盲区。

如果战场从“打造更强的代码模型”扩展到“构建一整套跨应用工作台”,Anthropic内部缺乏并行探索多种可能性的组织肌肉。近日有外媒爆料Anthropic正在准备一款“网站和演示文稿设计工具”,这是否意味着一直未大力投入多模态的Anthropic,也开始意识到多模态交付和跨应用执行能力的重要性?

OpenAI看起来则更像一家大公司,内部奉行自下而上的赛马机制。

从ChatGPT到Sora,从Codex到Atlas浏览器,从Canvas到正在开发的Mac超级应用,OpenAI的产品序列宽得惊人,甚至宽到了战略似乎不够聚焦的程度。Sora上线半年即关停,Shopping项目也未跑通,许多人因此批评其战略发散。

然而,这种“不聚焦”的背后,是一种外部看来“混乱”、内部实则充满活力的模式:

大公司的外壳,小团队的创业内核,自下而上的提案机制,内部项目通过赛马争夺资源。这种模式固然会带来资源消耗,但也确实催生了从0到1的突破性创新。

可以说,Anthropic将“聚焦”视为核心优势,而OpenAI则将“不设限”作为自己的优势。

如果竞争真的被OpenAI从编码的纵深战场,拉入系统整合与横向扩展的新维度,那么整个战局的规则或许又将改写。

05 Anthropic,还是永远的编码之王吗?

如果赛道的定义仍然是“谁的模型写代码最强”,那么Anthropic在短期内几乎找不到对手。

Opus系列对大型代码库的理解深度、对复杂工程意图的精准对齐,GPT-5.4和Gemini 3.1 Pro尚未完全追上;更何况,传奇模型Mythos Preview还未全量放出。在第一层战场上,Anthropic弹药充足。

但问题在于,“编码之王”这个定义本身正在被快速改写,并且有两个变量在加速这一进程。

第一个变量是算力。

微软和甲骨文为OpenAI兜底的千亿级GPU资源,加上“星门”计划,构筑了恐怖的算力后盾。Anthropic虽然也获得了Google和Amazon的大力支持,但在绝对量级上仍存在差距。过去两年,算力差距尚可通过算法效率和数据质量来部分弥补。但当下一代模型需要同时为多模态、长上下文强化学习、跨应用行为克隆烧掉海量算力时,纯粹的算力规模优势,可能会压过精细打磨带来的边际收益。

这是范式级别的变量,Anthropic再聚焦、再高效,也难以完全抵消。

第二个变量是迭代速度。

这一轮AI发展最反直觉的一点是,AI自身的进化速度比人类的适应速度还要快。一旦胜负的评判标准从单一的“模型能力”切换到“平台生态+算力规模+多模态广度+工作流闭环”的综合维度,并且这种切换又被算力代差和数据飞轮效应加速,那么竞争格局完全可能迎来新一轮的洗牌。

这并非否定Anthropic的价值。Claude Code在资深开发者圈子里的口碑不会一夜崩塌,Anthropic“持续稳定输出顶尖模型”的能力,在这个快速变化的行业里本身就是一种稀缺资产。但必须承认,AI领域的竞争,赛道切换得太快了。

在这个行业,没人敢轻言终局。

4月16日,AI行业又度过了充满意味的一天。也许,改变的种子又一次悄然萌芽。

Anthropic发布的是一个更强的代码模型,而OpenAI发布的,是一个更大的野心。