JetBrains 官宣: Codex 为默认Agent!
来源:互联网
时间:2026-07-03 12:51:07
2026年6月,JetBrains做了个决定——把OpenAI的Codex设为AI助手的“默认推荐”。这可不是随随便便拍脑袋的合作,背后是实打实的数据验证,以及JetBrains一以贯之的产品哲学在做支撑。
为什么要设置一个“推荐的智能体”?
在Codex被推上C位之前,JetBrains IDE里的AI用户得自己从一堆智能体里挑着用——Junie、Claude Agent,或者自带的ACP兼容智能体。自由度是挺高,但选择本身也成了负担。 JetBrains发现,随着模型能力越来越强,智能体(Agent)能帮用户干的事儿,比单纯聊个天要多得多、复杂得多。所以,直接推荐一个开箱即用、能力又均衡的智能体,能大幅降低新用户的上手门槛,让ta们立刻感受到AI辅助编程的核心价值
如何做出选择?基于“真实世界”的数据
JetBrains选谁,不是靠印象分或者合作关系,而是建立在一个叫开发者生产力AI竞技场(DPAIA)
1. 评估标准:三个核心指标
JetBrains从三个维度给候选智能体打分:- • :智能体在真实代码库里,能不能成功搞定Bug修复、功能开发这些任务,并且通过所有自动化测试。这是衡量能力的关键指标。
解决率
- • :完成一项任务平均要消耗多少token。这能确保推荐的智能体在提供高价值的同时,使用成本对用户来说也算合理。
成本
- • :从发出指令到拿到最终结果,平均要等多久。这直接影响开发者的工作流畅度。
延迟
实用主义平衡

2. 严谨的测试流程
- • :数据集覆盖了
多语言、多场景的基准测试
三大生态,包含几百个来自真实代码库的任务,确保了评估够广、够有代表性。Ja va、C#、Python
- • :离线数据之外,JetBrains还搞了真实用户参与的A/B测试。通过分析用户行为(比如有没有切换智能体、有没有退回纯聊天模式),来验证离线结论,让决策更有说服力。
线上A/B测试验证
数据驱动的选择:Codex vs. Junie
最终候选者Codex(GPT-5.4-mini medium)和Junie(Gemini 3 Flash)之间的数据表现,差距非常小。从侧面也说明,当前AI智能体的竞争已经进入白热化阶段。
从表格能看出来,Codex在综合解决率上略胜一筹,但Junie在延迟和成本上表现更好。两个智能体在不同语言上各有优势(比如Codex在C#上解决率更高,Junie在Ja va上领先)。
最终决定性的因素
“用户留存、切换率和失败率”
Codex最终胜出
-
- :通过数据驱动,为用户选出了当下综合体验最好的智能体,降低了用户的选择成本,提升了即时满足感。
用户价值优先
-
- :通过建立DPAIA基准测试,JetBrains向整个行业展示了一套
确立平台标准
。这增强了JetBrains AI平台的可信度,也为未来持续、客观地评估新模型/智能体打下了基础。科学、透明、可复现的AI编码工具评估标准
-
- :关键点在于,推荐是“动态”的。JetBrains明确表示,这不是永久决定,未来会基于新数据更新推荐。而且,用户始终可以自由切换到其他智能体。这种**“推荐但不强制”**的姿态,既尊重了高级用户的选择权,也维护了JetBrains作为开放平台的形象。
保持开放,而非锁定