首页 > 教程攻略 > ai资讯 >Opus 4.7赢了Coding，Codex想赢一切

Opus 4.7赢了Coding，Codex想赢一切

来源：互联网时间：2026-07-03 14:55:56

4月16日：Claude Opus 4.7发布，但掌声为何稀落？

4月16日，Anthropic如期发布了Claude Opus 4.7。然而，与以往“代码之王”加冕时的满堂喝彩不同，这次社区的反馈显得复杂而微妙。

通稿上的数据依然亮眼：在93项代码基准任务上比4.6版提升了13%，解决了前代模型都束手无策的四道难题，低思考档位的性能已大致追平4.6的中等档。价格维持不变，每百万输入Token 5美元，输出25美元。硬指标对比图上，它依然稳稳压过ChatGPT 5.4和Gemini 3.1 Pro。

但漂亮的基准测试分数之外，真实世界的体感却是另一番景象。

一边是过去几周用户对Opus 4.6“变笨”的激烈声讨仍在回荡；另一边，Anthropic在同一天亲口承认，4.7依然无法超越自家那个仍处于预览阶段的传奇模型“Mythos Preview”。更让开发者感到困扰的，是Opus 4.7身上那种“更听话，却也更死板”的新气质。以往针对旧模型设计的、留有一些模糊空间的提示词（Prompt），现在常常跑出意料之外的结果，迫使开发者不得不回头重写整个提示词库。

沃顿商学院教授Ethan Mollick则提出了一个更尖锐的批评。他发现Opus 4.7的“自适应思考”机制存在一种偏见：倾向于将非代码、非数学任务默认归类为“低努力”档位，在分析、写作、研究等场景中直接“偷懒”，导致产出质量有时甚至不如前一代。

这不禁让人感慨：AI公司是否陷入了一种“只有技术工作才算智力工作”的认知偏差？

风水轮流转。

就在同一天，老对手OpenAI更新了Codex，并喊出一句新的口号：“Codex for (almost) everything”（Codex，为了几乎一切）。

这无异于一次精准的反击。翻译过来就是：在你们专注的“编码”范式下，曾经被压制的OpenAI现在宣布，代码只是入口，我们要“卷”的是一台能操作你整台电脑、能浏览网页、能生成图像、能跨Slack/Gmail/Notion抓取上下文、能在后台并行开启多个分身的超级工作台。更扎心的是，有数据显示，GPT系列的编码能力在过去一年里已经快速追赶上来了。

当Anthropic继续在“最强编码模型”的单一条赛道上加码时，它在开发者心智中构筑的那道护城河，宽度可能正在被悄然侵蚀。

01 价格账、鹈鹕和真实体感

落到产品层面，开发者每天打交道的就是两件具体的事：价格，以及实战手感。而在这两件事上，Opus 4.7这次似乎没拿到预想中的高分。

先说价格。

Opus 4.7名义单价与4.6持平，但换用了新的分词器（Tokenizer）。这意味着，处理同样一段文本，消耗的Token数量可能增加1到1.35倍；同时，使用更高思考档位也会消耗更多Token。结果是，账面价格没涨，实际账单却可能悄然上扬。相比之下，有外媒测算，Codex的综合使用成本大约只有Claude Code的三分之一。对于一个每天需要处理海量任务的工程团队而言，这笔账算一遍就足够了。

再看手感。

软件工程专家Simon Willison做了一个极具传播力的测试：让Opus 4.7生成一张“骑自行车的鹈鹕”SVG矢量图。结果，4.7连自行车架的基本形状都画错了，表现甚至输给了在本地笔记本上运行的小参数模型Qwen。Willison调侃道，这虽然是个玩笑测试，但它确实打破了“模型越贵，画画越好”的迷信。

在真实的编程环节，用户@SnazzyLabs总结出了一个精准的差异：Claude Opus擅长“打磨”代码和抓住设计精髓，但在根据描述性文本执行具体、明确的编码任务时，由GPT-5.4驱动的Codex则表现得更出色、更直接。

用户@Stardustmemory的批评则更为严厉，他指出Opus 4.7在本该追求简洁的地方，会凭空制造出不必要的复杂性，导致他甚至不想续订服务，因为Codex往往能更高效地重写Opus生成的冗长计划。

知名爆料人@apples_jimmy观察到，由于Anthropic长期以来对AGI（通用人工智能）概念的预告和渲染，拉高了用户对Opus 4.7的期望值。这种“炒作后的失望”情绪，构成了社交媒体上大约80%的负面评论。

网友@johnhelmuth_也认为，大家觉得Opus 4.7表现平平，很大程度上是因为它没有像Opus 4.6发布时那样，带来那种“开创性”的震撼体验。

02 编码之战，战场已经转移

Opus被贴上的标签是“编码王者”，但今天的编码竞争，早已不是单纯的模型能力比拼。这场竞赛可以拆解为三个层次，而这三层的权重正在发生剧烈变化。

第一层是模型能力层，

比拼的是原始智力、对工程约束的理解深度。这一层曾是Anthropic坚固的护城河。

第二层是任务能力层，

考验的是谁能端到端地完成真实开发任务：读代码、改代码、调用工具、运行测试、抓取错误、持续迭代。在过去半年，Claude Code是这一层的佼佼者。

第三层是系统能力层，

竞争的是谁能把“写代码”这件事无缝嵌入开发者的整套工作流：接管浏览器、操作桌面、生成界面和图像、连接工单系统、读取设计稿、管理并行任务分身。这一层，至今还没有公认的赢家。

而4月16日，OpenAI直接将Codex推向了第三层：它能在macOS上查看屏幕、点击、打字；能同时开启多条分身在后台处理任务；内置浏览器，可以直接对网页元素进行评论和操作；接入图像模型，可以边写代码边出设计稿甚至游戏素材；一口气集成111个插件，连通Slack、Gmail、Notion、GitHub等核心工具。

这已经不再是一个单纯的编码助手，更像是一个初具雏形的“开发者操作系统”。

03 编码与智能体：为什么这里是必争之地？

在所有AI智能体可能落地的垂直场景中，编码是那个最快成熟、最先产生商业价值、也最容易形成闭环的领域。

原因有三。首先，代码任务

天然可验证

，编译能否通过、测试是否跑通，对错近乎二元。这使其成为强化学习训练最理想的数据源，也让智能体的行为最容易被自动评估和迭代。其次，有价值的编码任务

天然是多步骤的

，符合智能体序列决策的范式。最后，编码的

买单方最为清晰

，一个工程师的年成本动辄数十万美元，用AI替代或放大一部分工时，投资回报率的账很容易算清楚。

编码赛道的天花板，甚至超出了之前的普遍预期。互联网时代，大家习惯用日活跃用户来衡量科技公司的地位，但在智能体时代，这个指标正在失去意义。如果一个智能体在后台连开十个分身，连续运行三天，它创造的价值远非十次“日活”可以衡量。衡量单位正从“日活”转向“任务完成量”和“托管工作流数”。而编码，正是最早出现这种新价值计量方式的场景。

OpenAI曾在这条赛道上出现误判，而Anthropic持续的增长曲线则证明了这条赛道拥有超高的天花板。这也解释了为何连一直优先发展搜索和Workspace的Google，本月也在Gemini Code Assist上动作频频。如果在编码这个核心入口掉队，未来整个智能体生态都可能将你排除在外。

一个关键的判断是：在编码上领先，不等于自动赢得整个智能体战争；但在编码上失去阵地，则几乎等于失去了智能体竞争的全部筹码。

OpenAI Codex负责人Thibault Sottiaux在发布会上的表态毫不掩饰：“我们正在公开构建那个超级应用，这次面向开发者，未来会扩展到更广泛的受众。”翻译过来就是：

编码，只是我们推出超级智能体工作台的第一个楔子。用付费意愿最强的开发者群体完成冷启动，等形态跑通，同一套架构便能服务所有知识工作者。

Codex目前拥有每周300万活跃开发者，这早已远超一个“代码助手”的体量，它正在成为争夺操作系统级入口的产品。清醒过来的OpenAI，绝不甘心只做Anthropic的追随者。

简而言之，Anthropic在守卫王座，而OpenAI正试图将竞争拉入一个全新的维度。

04 基因迥异的“同城德比”

这两家渊源颇深的老对手，步伐几乎从未一致，组织性格也截然不同。

Anthropic是一家自上而下、战略高度聚焦、带有强烈技术信仰的公司。

它的产品线很窄：Claude系列模型、Claude Code、Claude.ai、有限的API生态。服务的是最顶尖的专业用户：最困难的编程任务、最复杂的企业知识工作、最前沿的智能体开发者。整个组织的叙事从一个清晰的顶层理念向下推导：AI安全是首要原则，模型本体是一切之源，把模型做到极致，其他问题自然迎刃而解。Amodei兄妹身上那种“我们是一个从事前沿AI科学研究的实验室”的气质，贯穿于每一个产品决策。

这种打法让每一代Claude都成为“更稳健、更深入、更可托付”的迭代，“最懂工程师的模型”这一心智在社区中坚如磐石。

但代价也同样明显。

它的战略聚焦，在单一维度内是优势，在跨维度竞争中就可能成为盲区。

如果战场从“打造更强的代码模型”扩展到“构建一整套跨应用工作台”，Anthropic内部缺乏并行探索多种可能性的组织肌肉。近日有外媒爆料Anthropic正在准备一款“网站和演示文稿设计工具”，这是否意味着一直未大力投入多模态的Anthropic，也开始意识到多模态交付和跨应用执行能力的重要性？

OpenAI看起来则更像一家大公司，内部奉行自下而上的赛马机制。

从ChatGPT到Sora，从Codex到Atlas浏览器，从Canvas到正在开发的Mac超级应用，OpenAI的产品序列宽得惊人，甚至宽到了战略似乎不够聚焦的程度。Sora上线半年即关停，Shopping项目也未跑通，许多人因此批评其战略发散。

然而，这种“不聚焦”的背后，是一种外部看来“混乱”、内部实则充满活力的模式：

大公司的外壳，小团队的创业内核，自下而上的提案机制，内部项目通过赛马争夺资源。这种模式固然会带来资源消耗，但也确实催生了从0到1的突破性创新。

可以说，Anthropic将“聚焦”视为核心优势，而OpenAI则将“不设限”作为自己的优势。

如果竞争真的被OpenAI从编码的纵深战场，拉入系统整合与横向扩展的新维度，那么整个战局的规则或许又将改写。

05 Anthropic，还是永远的编码之王吗？

如果赛道的定义仍然是“谁的模型写代码最强”，那么Anthropic在短期内几乎找不到对手。

Opus系列对大型代码库的理解深度、对复杂工程意图的精准对齐，GPT-5.4和Gemini 3.1 Pro尚未完全追上；更何况，传奇模型Mythos Preview还未全量放出。在第一层战场上，Anthropic弹药充足。

但问题在于，“编码之王”这个定义本身正在被快速改写，并且有两个变量在加速这一进程。

第一个变量是算力。

微软和甲骨文为OpenAI兜底的千亿级GPU资源，加上“星门”计划，构筑了恐怖的算力后盾。Anthropic虽然也获得了Google和Amazon的大力支持，但在绝对量级上仍存在差距。过去两年，算力差距尚可通过算法效率和数据质量来部分弥补。但当下一代模型需要同时为多模态、长上下文强化学习、跨应用行为克隆烧掉海量算力时，纯粹的算力规模优势，可能会压过精细打磨带来的边际收益。

这是范式级别的变量，Anthropic再聚焦、再高效，也难以完全抵消。

第二个变量是迭代速度。

这一轮AI发展最反直觉的一点是，AI自身的进化速度比人类的适应速度还要快。一旦胜负的评判标准从单一的“模型能力”切换到“平台生态+算力规模+多模态广度+工作流闭环”的综合维度，并且这种切换又被算力代差和数据飞轮效应加速，那么竞争格局完全可能迎来新一轮的洗牌。

这并非否定Anthropic的价值。Claude Code在资深开发者圈子里的口碑不会一夜崩塌，Anthropic“持续稳定输出顶尖模型”的能力，在这个快速变化的行业里本身就是一种稀缺资产。但必须承认，AI领域的竞争，赛道切换得太快了。

在这个行业，没人敢轻言终局。

4月16日，AI行业又度过了充满意味的一天。也许，改变的种子又一次悄然萌芽。

Opus 4.7赢了Coding，Codex想赢一切

4月16日：Claude Opus 4.7发布，但掌声为何稀落？

这不禁让人感慨：AI公司是否陷入了一种“只有技术工作才算智力工作”的认知偏差？

就在同一天，老对手OpenAI更新了Codex，并喊出一句新的口号：“Codex for (almost) everything”（Codex，为了几乎一切）。

01 价格账、鹈鹕和真实体感

01 价格账、鹈鹕和真实体感

先说价格。

再看手感。

02 编码之战，战场已经转移

02 编码之战，战场已经转移

第一层是模型能力层，

第二层是任务能力层，

第三层是系统能力层，

03 编码与智能体：为什么这里是必争之地？

03 编码与智能体：为什么这里是必争之地？

天然可验证

天然是多步骤的

买单方最为清晰

一个关键的判断是：在编码上领先，不等于自动赢得整个智能体战争；但在编码上失去阵地，则几乎等于失去了智能体竞争的全部筹码。

编码，只是我们推出超级智能体工作台的第一个楔子。用付费意愿最强的开发者群体完成冷启动，等形态跑通，同一套架构便能服务所有知识工作者。

简而言之，Anthropic在守卫王座，而OpenAI正试图将竞争拉入一个全新的维度。

04 基因迥异的“同城德比”

04 基因迥异的“同城德比”

Anthropic是一家自上而下、战略高度聚焦、带有强烈技术信仰的公司。

它的战略聚焦，在单一维度内是优势，在跨维度竞争中就可能成为盲区。

OpenAI看起来则更像一家大公司，内部奉行自下而上的赛马机制。

大公司的外壳，小团队的创业内核，自下而上的提案机制，内部项目通过赛马争夺资源。这种模式固然会带来资源消耗，但也确实催生了从0到1的突破性创新。

可以说，Anthropic将“聚焦”视为核心优势，而OpenAI则将“不设限”作为自己的优势。

05 Anthropic，还是永远的编码之王吗？

05 Anthropic，还是永远的编码之王吗？

如果赛道的定义仍然是“谁的模型写代码最强”，那么Anthropic在短期内几乎找不到对手。

但问题在于，“编码之王”这个定义本身正在被快速改写，并且有两个变量在加速这一进程。

第一个变量是算力。

这是范式级别的变量，Anthropic再聚焦、再高效，也难以完全抵消。

第二个变量是迭代速度。

Anthropic发布的是一个更强的代码模型，而OpenAI发布的，是一个更大的野心。

相关阅读

相关下载