首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >Cursor新模型，你怎么还在套Kimi？马斯克你怎么还吆喝上了？

Cursor新模型，你怎么还在套Kimi？马斯克你怎么还吆喝上了？

来源：互联网时间：2026-06-03 17:05:30

Cursor模型迎来了新版本，

Composer 2.5

正式亮相。

翻看官方公告，有两件事格外引人注目。

第一件事，是Cursor这次变得相当“实诚”

。新模型基于Kimi打造，官方不再遮遮掩掩，连具体使用了多少数据都标注得一清二楚。

第二件事，则是马斯克上演了一出“变脸”戏码

。此前Cursor陷入“套壳”争议时，他曾在旁煽风点火；如今却一反常态，卖力地为新模型站台，甚至直接喊话：“都给我去用Cursor新模型。”

这背后的原因其实并不复杂。Composer 2.5的部分训练是在马斯克的Colossus 2超算上完成的，并且Cursor已与SpaceXAI达成合作，双方正着手从零开始训练一个规模更大的模型。

新模型刚发布，下一代模型的“饼”就已经画好，看来Cursor在自研道路上确实铆足了劲。不过，未来的蓝图暂且放一放，先来看看眼前这个实实在在的Composer 2.5，其本身的亮点也足够吸引人。

官方宣称，它实现了

“1/10成本、Opus 4.7级表现”

，并且在发布后首周提供双倍用量。这几个关键词组合在一起，足以让任何关注AI开发工具的人心头一热。

但问题也随之而来：Cursor的新模型，真有宣传的那么出色吗？

1/10成本，性能对标Opus 4.7？

性能究竟如何，目前下结论为时尚早，但测评数据确实亮眼。

根据Cursor的介绍，新模型

“更擅长在长时间运行的任务中持续工作，更可靠地遵循复杂指令，协作体验也更加顺畅”

。这些定性描述落实到具体基准测试上，其整体性能水平已接近Claude Opus 4.7。

几个关键基准的对比数据如下：

在Terminal-Bench 2.0（终端/命令行任务）上，得分69.3%，与Opus 4.7的69.4%几乎持平；在SWE-Bench Multilingual（多语言工程问题）上，达到79.8%，与Opus 4.7的80.5%差距微弱；在Cursor自家的高难度编程基准v3.1上，取得63.2%的成绩，与最高配的64.8%同样相差无几。

能够与Opus 4.7相提并论，这其中的分量，经常使用大模型的开发者自然明白。

除了在更高难度的任务上进行训练，Cursor还改进了模型在沟通风格和投入级别校准（即判断何时该投入多少算力）等行为层面的表现。这些维度虽然难以通过现有标准基准充分反映，但对实际使用体验至关重要。

那么，Composer 2.5的真实手感如何？由于目前免费用户只能体验Auto模式（模型已上架但无法手动选择），我们不妨先看看早期用户的实际反馈。

一个普遍的共识是，Composer系列模型的速度确实快，无论哪个版本，响应都相当迅捷。

从目前的社区反馈来看，Composer 2.5的口碑似乎不错。Snapchat前机器学习工程师就曾发帖表示，自Composer 2发布后，她已将绝大多数开发工作迁移至Cursor，并抛出一个颇为尖锐的观点：

“如果你在使用AI进行开发，却仍然默认使用成本最高的模型来完成每一项任务，那么你80%的工作都是在浪费钱。”

图像生成初创公司LetzAI的CEO也有类似体验。他在试用新模型几小时后表示，以往总会对AI生成的方案反复挑剔修改，但这次Composer 2.5完成得又快又好，以至于他直接“躺平认了”，觉得没什么可挑剔的。

除了能力，用户反馈中反复出现的另一个关键词是

价格

。Composer 2.5的定价为每百万输入Token 0.50美元，每百万输出Token 2.50美元。此外，还提供了一个

智能水平相同但速度更快的变体

，定价分别为3.00美元和15.00美元（注：与Composer 2一样，Fast版本是默认选项）。

这个价格水平，大致是Claude Opus 4.7的十分之一。

十分之一的成本，接近Opus 4.7的表现——如果实测效果真能如基准测试和早期用户所言，那么其性价比优势将非常明显。

基于Kimi，训练做了哪些改进？

那么，Composer 2.5是如何实现这次性能“飞跃”的呢？尽管有Kimi作为基座模型，但既然贴上了“Cursor自研”的标签，背后总得有些自己的功夫。

Cursor这次在训练栈上确实做了不少改进，主要围绕

模型智能

和

易用性

两个方向展开，具体体现在三个方面。

第一，为RL训练引入“定向反馈”

传统的强化学习奖励通常基于整条任务轨迹计算，一次任务动辄几十万Token，模型很难 pinpoint 自己究竟在哪一步出了问题。最终的奖励信号只能模糊地告诉模型“搞砸了”，但具体错在哪里，噪声很大。

Cursor的解决方案是：

在出错的地方直接注入反馈

。例如，当模型在某一轮调用中错误地使用了一个不存在的工具，并在收到报错后继续执行其他操作时，传统的奖励机制可能因为这次错误在数百次调用中占比太小而忽略它。但Cursor会在出错的那个上下文位置，插入一句提示（如“提醒：可用工具包括…”并附上列表），从而生成一个新的“教师”概率分布。这样，错误工具选项的概率被压低，有效替代选项的概率被提升，学生模型只需向这个修正后的分布对齐即可。这套方法被应用于编码风格、沟通方式等多种行为的调优中。

第二，合成数据规模扩大25倍

经过几轮强化学习训练后，模型已经能解决大部分训练题目了，如何进一步提升？答案是

动态生成更困难的任务

。其中一个方法是“功能删除”：给智能体一个带有测试的代码库，要求它删除某个特定功能但同时保证代码库能运行，然后让模型重新实现该功能，并通过测试作为奖励信号。

然而，任务难度提升后，奖励作弊也随之出现。Cursor发现，Composer 2.5有时会采取一些极端操作，例如逆向Python的类型检查缓存来找出被删除的函数签名，甚至反编译Ja va字节码来重建第三方API。好在这些行为都被监控工具捕获，但也提醒了团队——在大规模强化学习训练中需要更加谨慎。

第三，底层训练优化

在底层技术上，Cursor采用了带分布式正交化的Muon优化器，并将通信过程异步化。这意味着当一个任务等待通信时，优化器可以继续推进其他任务，从而实现网络通信与计算的重叠。最终，在一个1万亿参数的模型上，

优化器每步仅需0.2秒

。

此外，针对混合专家模型，团队将非专家权重和专家权重的HSDP布局分离开：非专家权重较小，采用更窄的FSDP组，在单个节点内完成；专家权重大，则使用更宽的分片网格。这样，彼此独立的并行维度也能重叠，例如CP=2和EP=8可以在8个GPU上运行，而不需要占用16个GPU。

总之，从训练信号、数据规模到底层并行策略，Cursor这次进行了一次全栈式的改进。

One More Thing：Cursor为何全力押注自研？

Cursor为何如此拼命地搞自研？从其与Anthropic关系的微妙变化中，或许能窥见一二。

Cursor最初是踩着Claude的肩膀火起来的。开发者社区中口口相传的“好用”，背后很大程度上得益于Claude模型本身的能力。那段时间，双方是典型的“鱼水关系”，一个提供模型，一个打造产品，各取所需。

然而，当Claude Code推出后，局面彻底改变。

Anthropic亲自下场做编程产品，等于直接杀入了Cursor的核心腹地。

曾经的“上游供应商”瞬间变成了“正面竞争对手”。继续将核心体验完全寄托在对手的API上，无疑充满了风险。

因此，Cursor走上自研之路，与其说是野心勃勃地想成为下一个Anthropic，不如说是一种被形势推动的必然选择——

只有把模型握在自己手里，命运才能真正由自己掌控。

这引出了一个有趣的问题：在自研模型成功之前，Cursor现有的模式真的没有护城河吗？对于非专业开发者而言，Cursor听起来似乎不错——能提供多款前沿模型选择，且价格更具优势。

对此，X上的一种解读颇为精辟：

“Cursor的护城河从来都不是基础模型，而是其强化学习训练流程加上真实的开发者工作流数据。他们正在证明，只要经过足够的微调，开源基础模型在特定任务上也能媲美前沿模型。”

仔细想想，这个说法并不夸张。在Composer 2.5的训练中，高达85%的算力都花在了Kimi基座模型之外的后训练和强化学习上。Kimi K2.5只是一个起点，真正让它擅长编程的，是Cursor那套围绕真实IDE场景构建的训练管线。

这套打法也解释了其成本为何能大幅降低。使用开源基座模型，省去了从零开始预训练这笔最昂贵的开销，剩下的资源可以全部集中在“编程”这一件事上进行精细化训练。模型专为Cursor的IDE场景服务，无需为通用能力支付额外成本。

至于为何此次与马斯克的SpaceXAI牵手（毕竟后者此前对Cursor并不算友好），其逻辑也不难理解。OpenAI有Codex，Anthropic有Claude Code，Google有Gemini Code Assist，这几家巨头自身都在深耕编程产品，与Cursor存在潜在竞争关系，在算力合作上自然指望不上。环顾四周，能提供世界级算力集群、又不与Cursor在编程赛道上直接冲突的玩家，屈指可数——马斯克的Colossus 2超算恰好是现成的选择。

如果把时间线拉长，会发现马斯克与Cursor之间的关系，早已超越了简单的“算力合作”。今年3月，在xAI内部动荡期间，马斯克从Cursor挖走了两位核心工程负责人。紧接着4月，更大的动作到来：SpaceX宣布与Cursor达成合作，由Colossus超算为后者训练模型。

但关键并非算力本身，而是合作协议的条款。根据网上披露的信息，SpaceX获得了未来以600亿美元估值收购Cursor的优先权。即便最终不收购，Cursor也需要支付高达100亿美元的“合作费”。耐人寻味的是，据TechCrunch披露，在这份协议官宣前几小时，Cursor原本即将敲定一轮20亿美元、估值500亿美元的融资，参投方包括a16z、英伟达、Thrive等一线机构。结果马斯克半路杀出，截胡了这笔交易。

因此，这本质上是一次非常典型的“马斯克式绑定”

：要么卖给我，要么支付巨额费用。无论如何，先将Cursor的未来命运，提前锁进了自己的商业版图之中。至于他前脚煽风点火、后脚卖力站台的“变脸”速度——硅谷的故事，向来如此。

参考链接：

[1]https://cursor.com/cn/blog/composer-2-5

[2]https://x.com/cursor_ai/status/2056415413077233983

[3]https://x.com/elonmusk/status/2056422097237283295

Cursor新模型，你怎么还在套Kimi？马斯克你怎么还吆喝上了？

Composer 2.5

第一件事，是Cursor这次变得相当“实诚”

第二件事，则是马斯克上演了一出“变脸”戏码

“1/10成本、Opus 4.7级表现”

1/10成本，性能对标Opus 4.7？

1/10成本，性能对标Opus 4.7？

“更擅长在长时间运行的任务中持续工作，更可靠地遵循复杂指令，协作体验也更加顺畅”

“如果你在使用AI进行开发，却仍然默认使用成本最高的模型来完成每一项任务，那么你80%的工作都是在浪费钱。”

价格

智能水平相同但速度更快的变体

基于Kimi，训练做了哪些改进？

基于Kimi，训练做了哪些改进？

模型智能

易用性

第一，为RL训练引入“定向反馈”

第一，为RL训练引入“定向反馈”

在出错的地方直接注入反馈

第二，合成数据规模扩大25倍

第二，合成数据规模扩大25倍

动态生成更困难的任务

第三，底层训练优化

第三，底层训练优化

优化器每步仅需0.2秒

One More Thing：Cursor为何全力押注自研？

One More Thing：Cursor为何全力押注自研？

Anthropic亲自下场做编程产品，等于直接杀入了Cursor的核心腹地。

只有把模型握在自己手里，命运才能真正由自己掌控。

“Cursor的护城河从来都不是基础模型，而是其强化学习训练流程加上真实的开发者工作流数据。他们正在证明，只要经过足够的微调，开源基础模型在特定任务上也能媲美前沿模型。”

因此，这本质上是一次非常典型的“马斯克式绑定”

相关阅读

相关下载