Cursor新模型,你怎么还在套Kimi?马斯克你怎么还吆喝上了?
Cursor模型迎来了新版本,
Composer 2.5
翻看官方公告,有两件事格外引人注目。
第一件事,是Cursor这次变得相当“实诚”

第二件事,则是马斯克上演了一出“变脸”戏码


这背后的原因其实并不复杂。Composer 2.5的部分训练是在马斯克的Colossus 2超算上完成的,并且Cursor已与SpaceXAI达成合作,双方正着手从零开始训练一个规模更大的模型。

新模型刚发布,下一代模型的“饼”就已经画好,看来Cursor在自研道路上确实铆足了劲。不过,未来的蓝图暂且放一放,先来看看眼前这个实实在在的Composer 2.5,其本身的亮点也足够吸引人。
官方宣称,它实现了
“1/10成本、Opus 4.7级表现”
但问题也随之而来:Cursor的新模型,真有宣传的那么出色吗?
1/10成本,性能对标Opus 4.7?
1/10成本,性能对标Opus 4.7?
性能究竟如何,目前下结论为时尚早,但测评数据确实亮眼。
根据Cursor的介绍,新模型
“更擅长在长时间运行的任务中持续工作,更可靠地遵循复杂指令,协作体验也更加顺畅”
几个关键基准的对比数据如下:
在Terminal-Bench 2.0(终端/命令行任务)上,得分69.3%,与Opus 4.7的69.4%几乎持平;在SWE-Bench Multilingual(多语言工程问题)上,达到79.8%,与Opus 4.7的80.5%差距微弱;在Cursor自家的高难度编程基准v3.1上,取得63.2%的成绩,与最高配的64.8%同样相差无几。

能够与Opus 4.7相提并论,这其中的分量,经常使用大模型的开发者自然明白。

除了在更高难度的任务上进行训练,Cursor还改进了模型在沟通风格和投入级别校准(即判断何时该投入多少算力)等行为层面的表现。这些维度虽然难以通过现有标准基准充分反映,但对实际使用体验至关重要。
那么,Composer 2.5的真实手感如何?由于目前免费用户只能体验Auto模式(模型已上架但无法手动选择),我们不妨先看看早期用户的实际反馈。
一个普遍的共识是,Composer系列模型的速度确实快,无论哪个版本,响应都相当迅捷。

从目前的社区反馈来看,Composer 2.5的口碑似乎不错。Snapchat前机器学习工程师就曾发帖表示,自Composer 2发布后,她已将绝大多数开发工作迁移至Cursor,并抛出一个颇为尖锐的观点:
“如果你在使用AI进行开发,却仍然默认使用成本最高的模型来完成每一项任务,那么你80%的工作都是在浪费钱。”

图像生成初创公司LetzAI的CEO也有类似体验。他在试用新模型几小时后表示,以往总会对AI生成的方案反复挑剔修改,但这次Composer 2.5完成得又快又好,以至于他直接“躺平认了”,觉得没什么可挑剔的。

除了能力,用户反馈中反复出现的另一个关键词是
价格
智能水平相同但速度更快的变体
这个价格水平,大致是Claude Opus 4.7的十分之一。

十分之一的成本,接近Opus 4.7的表现——如果实测效果真能如基准测试和早期用户所言,那么其性价比优势将非常明显。
基于Kimi,训练做了哪些改进?
基于Kimi,训练做了哪些改进?
那么,Composer 2.5是如何实现这次性能“飞跃”的呢?尽管有Kimi作为基座模型,但既然贴上了“Cursor自研”的标签,背后总得有些自己的功夫。
Cursor这次在训练栈上确实做了不少改进,主要围绕
模型智能
易用性

第一,为RL训练引入“定向反馈”
第一,为RL训练引入“定向反馈”
传统的强化学习奖励通常基于整条任务轨迹计算,一次任务动辄几十万Token,模型很难 pinpoint 自己究竟在哪一步出了问题。最终的奖励信号只能模糊地告诉模型“搞砸了”,但具体错在哪里,噪声很大。
Cursor的解决方案是:
在出错的地方直接注入反馈

第二,合成数据规模扩大25倍
第二,合成数据规模扩大25倍
经过几轮强化学习训练后,模型已经能解决大部分训练题目了,如何进一步提升?答案是
动态生成更困难的任务
然而,任务难度提升后,奖励作弊也随之出现。Cursor发现,Composer 2.5有时会采取一些极端操作,例如逆向Python的类型检查缓存来找出被删除的函数签名,甚至反编译Ja va字节码来重建第三方API。好在这些行为都被监控工具捕获,但也提醒了团队——在大规模强化学习训练中需要更加谨慎。

第三,底层训练优化
第三,底层训练优化
在底层技术上,Cursor采用了带分布式正交化的Muon优化器,并将通信过程异步化。这意味着当一个任务等待通信时,优化器可以继续推进其他任务,从而实现网络通信与计算的重叠。最终,在一个1万亿参数的模型上,
优化器每步仅需0.2秒
此外,针对混合专家模型,团队将非专家权重和专家权重的HSDP布局分离开:非专家权重较小,采用更窄的FSDP组,在单个节点内完成;专家权重大,则使用更宽的分片网格。这样,彼此独立的并行维度也能重叠,例如CP=2和EP=8可以在8个GPU上运行,而不需要占用16个GPU。
总之,从训练信号、数据规模到底层并行策略,Cursor这次进行了一次全栈式的改进。
One More Thing:Cursor为何全力押注自研?
One More Thing:Cursor为何全力押注自研?
Cursor为何如此拼命地搞自研?从其与Anthropic关系的微妙变化中,或许能窥见一二。
Cursor最初是踩着Claude的肩膀火起来的。开发者社区中口口相传的“好用”,背后很大程度上得益于Claude模型本身的能力。那段时间,双方是典型的“鱼水关系”,一个提供模型,一个打造产品,各取所需。
然而,当Claude Code推出后,局面彻底改变。
Anthropic亲自下场做编程产品,等于直接杀入了Cursor的核心腹地。
因此,Cursor走上自研之路,与其说是野心勃勃地想成为下一个Anthropic,不如说是一种被形势推动的必然选择——
只有把模型握在自己手里,命运才能真正由自己掌控。
这引出了一个有趣的问题:在自研模型成功之前,Cursor现有的模式真的没有护城河吗?对于非专业开发者而言,Cursor听起来似乎不错——能提供多款前沿模型选择,且价格更具优势。
对此,X上的一种解读颇为精辟:
“Cursor的护城河从来都不是基础模型,而是其强化学习训练流程加上真实的开发者工作流数据。他们正在证明,只要经过足够的微调,开源基础模型在特定任务上也能媲美前沿模型。”

仔细想想,这个说法并不夸张。在Composer 2.5的训练中,高达85%的算力都花在了Kimi基座模型之外的后训练和强化学习上。Kimi K2.5只是一个起点,真正让它擅长编程的,是Cursor那套围绕真实IDE场景构建的训练管线。
这套打法也解释了其成本为何能大幅降低。使用开源基座模型,省去了从零开始预训练这笔最昂贵的开销,剩下的资源可以全部集中在“编程”这一件事上进行精细化训练。模型专为Cursor的IDE场景服务,无需为通用能力支付额外成本。
至于为何此次与马斯克的SpaceXAI牵手(毕竟后者此前对Cursor并不算友好),其逻辑也不难理解。OpenAI有Codex,Anthropic有Claude Code,Google有Gemini Code Assist,这几家巨头自身都在深耕编程产品,与Cursor存在潜在竞争关系,在算力合作上自然指望不上。环顾四周,能提供世界级算力集群、又不与Cursor在编程赛道上直接冲突的玩家,屈指可数——马斯克的Colossus 2超算恰好是现成的选择。
如果把时间线拉长,会发现马斯克与Cursor之间的关系,早已超越了简单的“算力合作”。今年3月,在xAI内部动荡期间,马斯克从Cursor挖走了两位核心工程负责人。紧接着4月,更大的动作到来:SpaceX宣布与Cursor达成合作,由Colossus超算为后者训练模型。
但关键并非算力本身,而是合作协议的条款。根据网上披露的信息,SpaceX获得了未来以600亿美元估值收购Cursor的优先权。即便最终不收购,Cursor也需要支付高达100亿美元的“合作费”。耐人寻味的是,据TechCrunch披露,在这份协议官宣前几小时,Cursor原本即将敲定一轮20亿美元、估值500亿美元的融资,参投方包括a16z、英伟达、Thrive等一线机构。结果马斯克半路杀出,截胡了这笔交易。
因此,这本质上是一次非常典型的“马斯克式绑定”
参考链接:
[1]https://cursor.com/cn/blog/composer-2-5
[2]https://x.com/cursor_ai/status/2056415413077233983
[3]https://x.com/elonmusk/status/2056422097237283295