首页 > 教程攻略 > ai资讯 >AI Coding 最全图谱：Agent 将如何颠覆软件

AI Coding 最全图谱：Agent 将如何颠覆软件

来源：互联网时间：2026-06-14 14:34:10

编程领域的投资现在正站在两个核心变化的风口上：底层推理引擎的马力越来越足，而整个市场版图也在悄然重塑。这两股力量搅在一起，让这个领域格外值得关注。LLM作为推理引擎，编程简直是它最完美的应用场景——代码的逻辑比自然语言清晰得多，而且执行结果还能让AI自己验证。所以你能看到，从Sonnet 3.5到o1 pro，每一次模型能力的跃迁，几乎都会在编程能力上立竿见影，整个赛道的进步也因此格外扎眼。

这种持续的能力提升，让我们开始期待一个更宏大的场景：未来参与软件生产的，或许不再只是专业开发者。这次我们干脆对整个AI编程领域做了一次全景式的扫描。在研究框架里，我们不仅看了那些面向专业开发者（包括企业和独立开发者）的产品，也把目光投向了“小白”用户（也就是那些泛知识工作者）的方向。这两类产品的重心，截然不同。

对于专业开发者，我们更期待的是，编程能比其他垂直领域更快地从“副驾驶（Copilot）”进化成“自主袋里（Agent）”，并且两者长期共存。现在，Cursor、Windsurf这些产品带来的“副驾驶”体验已经非常优秀，极大提升了独立开发者的工作效率和体验。但在大型企业里，情况就复杂得多：庞大的代码库、错综复杂的工程上下文，还有极其严格的安全合规要求，这些都不是短期内能搞定的。所以，“自主袋里”会更多地先在测试、代码审查、代码迁移这些具体的场景里落地。与此同时，通用的“副驾驶”IDE依然会发挥价值，成为编程Agent的工作底座。

至于那些不会写代码的用户，我们期待软件的生产方式会发生碘伏性的变革，会出现一种全新的产品形态——“任务引擎”。AI编程能让更多知识工作者的长尾需求得到满足，生成那种“随用随抛”的一次性应用。未来的软件，不需要动辄百万日活，而是为每个用户提供高度个性化的体验，内容甚至可以实时生成。这里的关键在于UI/UX层面的创新，谁能把交互的门槛降得更低，谁就能让更多人表达自己的个性化需求，最终就有可能成为编程Agent层面上的新一代操作系统。回顾PC的历史，我们现在可能还处在“命令行”时代，而AI编程领域的“GUI时刻”正在被翘首以盼。

01. 投资主线

总而言之，编程领域的投资逻辑，主要围绕着两个大变化：底层推理引擎的持续进步，和市场空间的结构性扩张。

1）编程能力是LLM + RL范式下进化最快的方向，它会是第一个从“副驾驶”向“自主袋里”渐进演化的领域。

在强化学习（RL）的范式下，一个能自动验证的环境和明确无误的奖励模型，是提升推理能力的关键前提。编程几乎完美符合这个要求，它很可能会成为LLM从“副驾驶”迈向“自主袋里”的第一个试验场。o1 pro的发布，再次印证了这个判断。

2）“任务引擎”会把市场从5000万开发者，拓展到5亿知识工作者。

全世界会写代码的专业开发者只有5000万，还有99%的人不会。但这里面有大量的人，其实有个性化的任务需求，非常适合用软件来实现规范化。之前，试错成本太高了。而现在，AI驱动的“任务引擎”能带来大量这样的软件。

你可以想象一下，下一代的互联网，用户在浏览器地址框里敲的可能不再是网址，而是一句自然语言的指令，所需的内容就会实时生成并渲染出来；下一代的操作系统，每次打开，都能根据你近期的行为、时间和环境，给你最合适的内容。这里面，可能就孕育着AI时代的Google，成为赛博世界的新入口。这才是我们看好AI编程领域投资机会的根本原因。

接下来，我们用一张“二维坐标系”来梳理一下当前AI编程领域涌现出的各类产品：

Y轴：产品在多大程度上需要人类参与？越靠上，越能端到端地完成任务；越靠下，则越专注于赋能开发者。
X轴：产品的目标用户，开发能力有多强？左边是专业开发者，右边是没有编程基础的用户。

3）“面向专业开发者的副驾驶”和“面向普通用户的袋里”，是当前模型能力与产品需求最匹配的两个象限。

左下象限：面向专业开发者的副驾驶。
最近口碑炸裂的Cursor、Codeium、Windsurf等基本都在这儿。它们在早期开发者的圈子里混得风生水起，这背后，对用户需求的深刻理解和Claude Sonnet 3.5出色的意图理解能力，缺一不可。它们保持增长的关键是：优秀的产品体验能赢得独立开发者的心，但对企业销售来说，这只是必要条件，而非充分条件。从产品到企业信任，中间还横着隐私、合规等一大堆复杂的需求。同时，最近开始大力迭代的GitHub Copilot，也会挤压它们的市场空间。
右上象限：面向普通用户的袋里。
给普通人用的编程Agent，产品形态还没固定下来。Vercel的V0、bolt.new能智能生成前端网页，Replit Agent可以跟用户多轮交互生成基础的软件。而像websim、wordware这类早期创业公司，产品形态更新颖：websim在模拟一个实时生成的Chrome浏览器，wordware用类似Notion的交互方式让用户创作软件。但这个象限的机会可能才刚开始，目前的产品思路还有点拘泥于过去。可以类比施乐实验室发明GUI之前的命令行时代，对大众用户的门槛太高了，只能留在早期用户圈子里玩。
左上象限：面向专业开发者的袋里。
要实现这个愿景，模型能力还得再上一个台阶。欧美已经有好几家融资过亿美金的公司在攻坚这个方向。因为处理代码token的消耗量极大，要解决的工程问题也很多。其中最核心的问题是企业的代码库上下文：一方面，如何从巨大的代码库里精准地找到你需要的东西，这是个难题，科技大厂也常因老员工离职导致旧代码项目没人懂。AI理论上可以有更长的上下文窗口，但理解和搜索的精度还不够。另一方面，企业的代码库里包含了大量公司内部的业务逻辑，这需要专有数据微调，甚至要本地化部署。像摩根士丹利、可口可乐这类大型企业，开发者数量不比Google、Meta少，而它们对合规和隐私的要求，远高于技术本身。
右下象限：面向普通用户的副驾驶。
这个领域已经有了比较成熟的解决方案，所以后面的公司图谱里不会出现它。之前的Low-Code、RPA已经出了不少成功产品，比如上市公司UiPath和独角兽Retool。但它们都停留在“副驾驶”阶段，抽象方式只能辅助用户完成固定的工作流。反倒是Excel，成了最好的无代码产品，帮助大量知识工作者实现了科学计算和统计任务。这是个很有趣的历史启示。这一代AI编程产品要面对的“Excel”，是拥有5亿月活用户的ChatGPT。创业团队们需要认真思考如何绕过它庞大的用户基础和最强模型，并持续迭代。

02. AI编程图景现状

基于上面的分析，我们对整个AI编程图景下的创业公司做了一次系统性的盘点：

面向专业开发者的副驾驶：
按工作流可以分成编码、测试、代码审查和代码搜索。其中核心价值还是集中在入口级的编码部分。
面向专业开发者的袋里：
这里有两大类公司：编程Agent和编程模型公司。最大区别在于是否自己训练模型。前者是基于顶尖LLM来构建工作流和Agent，后者则从头开始训练编程专用模型。对于后者，我们持保守态度——它们正走在LLM大公司的主航道上。
面向普通用户的袋里：
这个领域的公司还在百花齐放，我们大致分为三类。第一类是“任务引擎”，为用户完成任务、实现原型；第二类是前端网页生成；第三类是用“乐高”式组件搭建应用的Low-Code产品。最终大家的目标可能都是“任务引擎”，只是现在选择了不同的路线去赌。

面向专业开发者的副驾驶

· 编码代表公司：Anysphere (Cursor), Codeium, Augment

产品

专注于编程体验的产品，可以分为IDE和VSCode插件。两者各有千秋：自己做IDE，产品自由度和用户数据积累更完整；做VSCode插件则更轻快，用户迁移成本也更低。Cursor团队在这里的选择很聪明——通过Fork VSCode，把两者的优势都占了。Codeium也在通过Windsurf往IDE切入，因为IDE毕竟是更好的入口级产品，能自己积累数据、有更多修改功能的空间，这对构建产品的护城河很重要。

Cursor在用户体验上下了大功夫，核心就两点：“快”和“下一步动作预测”。开发者用起来就是不断按Tab，进入一个快速获得反馈的正向循环里——快，就意味着有趣，就能让人进入心流。上个月他们收购Superma ven，就是把产品体验里的“快”做到极致；这也说明，短期内的重点还是人与AI的同步协作，像o1那种异步交互，暂时还不是产品主线。

Codeium团队从VSCode插件做到IDE，体现了和Cursor完全不同的思路。Cursor更强调编程体验和预测用户意图，而Codeium的新产品Windsurf更强调高自动化。他们的Chat功能做得比Cursor更完善，很多用户甚至不用亲手写代码，就能完成基础的开发工作。同时，他们的产品还体现出了对企业级需求更强的理解，支持本地化部署和各种各样的合规协议。这就引出了它们在市场策略上的巨大差异。

市场

根据Sacra的最新报告，Cursor的ARR已经达到了6500万美元，大约对应30万付费用户。由于Cursor的产品并不重视企业级代码库，它们的核心用户还是硅谷的独立开发者。那么，它们未来的关键就在于，独立开发者在所有开发者中的比例是否会变高。如果AI产品的开发范式下，独立开发者数量能增长到500万，也就是今天所有开发者的10%，Cursor的市场空间才有可能达到10亿美元。

企业侧的销售和开发者市场的增长方式完全不同。Codeium在企业销售和签单方面的能力很强。因为企业数据合规的需求，比最流畅的产品体验更重要。在Latent Space的一篇专访里，Codeium的创始人Anshul提出了“企业基础设施原生”的概念，强调要服务好世界500强用户，就必须突破硅谷开发者圈子的思维定势。这里有几个核心要点：

先说安全：需要支持多种部署选项，比如本地化或混合部署；容器化部署是基础，要确保客户环境的数据隔离。再谈合规：企业对LLM的训练数据高度敏感，你得证明你没用过受版权保护或未经许可的数据；数据清理和数据来源追踪，是保证合规的关键。然后是个性化：数据质量直接决定个性化效果，要对数据的时效性和相关性进行评估，通过微调/RAG帮企业写出更高质量的代码。数据预处理和基于角色的访问控制（RBAC）是重点，避免因信息整合导致数据泄露。ROI分析也不能少：生成式AI的ROI很难量化，你可以通过提供分团队的使用数据，帮客户优化效果、证明价值。最后是规模：企业环境复杂且规模庞大，涉及数万个代码库和开发者，你必须解决好大规模索引和延迟管理的问题，确保系统在高用户量、高数据量下也能稳定高效。

企业侧的机会可能更明确，是更低的果实。只是它们要面对GitHub Copilot那极其强大的分发渠道。面对竞争，用研究去解决GitHub可能做不好的地方，就显得至关重要。

研究

这些编程公司，不能只当成应用层产品公司来看，它们更像是研究和产品一体化的公司。Cursor官网上自称是“应用研究实验室”，Codeium的官方博客写了大量关于微调/RAG技术方案的思考，Augment也在检索、强化学习等方向上做了大量探索。Augment和Codeium更关心的是企业级的技术方案，尤其是GitHub Copilot目前解决不好的问题。比如，Augment在处理的是在数万个企业代码库中，如何精准地做好检索和交互理解。和企业的文档RAG遇到的难题类似，代码库的检索需要重新训练专用的嵌入模型，对话、补全、跨文件生成需要的嵌入方式都不一样。Codeium还思考了很多在企业本地化或VPC上部署专用编程模型的问题，以求在安全性和智能程度之间找到平衡。

而对于Cursor，在强推理能力下的异步协同，是研究的核心方向，对应到内部项目就是Shadow Workspace。Shadow Workspace是Cursor为后台的编程Agent设计的开发空间。这个空间需要能“看到”Agent修改带来的lint提示信息，并与IDE背后的LSP协议充分交互，但不能修改用户的原始文件。AI和用户会一起根据Shadow Workspace下的lint反馈，来决定是否进行下一步迭代。这个过程，和o1的推理时计算思路类似。

Shadow Workspace早期架构图

· 测试代表公司：QA Wolf, Momentic, Gru AI

代码测试是每个开发者必经的工作流，目的是保证代码质量。常见的有两类：一是单元测试，在错综复杂的系统里，代码更新后需要用单元测试来验证其可用性，减少意外崩溃的概率；二是前端或应用开发里，需要对UI的每个功能进行交互测试。测试任务和代码生成（codegen）的适配度很高，因为写测试过程重复性高、有规律可循，而且是人类工程师不太愿意干的活——绝大部分团队的单元测试覆盖率都比较低，就能侧面说明这一点。同时，Cursor团队在访谈中提到过，调试对LLM底座来说很有难度。LLM的训练方式不是去发现错误，要让LLM理解一个看起来不太严重的错误可能引发的连锁反应，是比较难的。因此，这里给独立创业公司留下了机会。

这个领域的代表公司中：QA Wolf是LLM出现前就有的公司，用基于规则的方法就能实现很多测试用例。Momentic是最近在YC和AI Grant中涌现的项目，更偏向人和AI协作对视觉产品的UI进行测试。Gru AI则是为单元测试场景设计专用的Agent，来端到端地解决企业中的测试需求。

Momentic homepage feature

· 代码审查与重构代表公司：CodeRabbit

代码审查与重构是开发者工作中重要的质量保障工作，无论是企业还是独立开发者，都得花时间审核内外的PR请求。根据TechCrunch，50%的企业开发者每周要花5个小时来进行代码审查。这个领域的代表公司CodeRabbit，在不到一年的时间里就实现了超过1亿美元的ARR，成为GitHub和GitLab上安装次数最多的AI应用，已经审查了超过300万条PR。这说明，原生的LLM产品在这个领域已经能提供不错的服务了。

除此之外，还有更大规模的CI/CD任务可以被归类为代码重构。比如，对项目进行优化和重构，解决历史遗留的技术债，甚至需要对技术架构进行重构和迁移，那就是代码迁移。这类需求同样繁重，也是人类工程师不太愿意干的。因此，这也成了我们接下来要说的编程Agent公司最早获得PMF的场景。

面向专业开发者的袋里

· 编程Agent代表公司：Cognition (Devin), Factory

编程Agent公司的平均融资规模是最大的，因为目标是端到端地替代人类开发者，这个过程工程量大、消耗的代码token数量多。这个领域目前面临两个核心问题：一是技术层面，模型的底层推理能力还不够。要在企业的庞大代码库中完整地处理问题，需要很强的推理能力去理解用户和代码库两端的上下文，然后将任务拆解成多个步骤。这种长上下文加长程推理能力，才能真正去解决企业侧复杂的工程问题。二是产品层面，UI/UX需要与人协作方式的创新。既然模型能力还没到完全可用的地步，如何让人类介入到协作中，就成了一个难题。模型遇到难题时，是选择推理时计算进行搜索，还是把问题交给用户，让他给更多指导或上下文？如果这个问题解决不好，就会出现AI自己埋头苦干12小时，结果发现没辙了，交给用户时，用户也很难在AI的基础上进行修正。

由于以上问题，我们推测当前真正能有PMF的场景，会是代码迁移、代码重构和PR提价这类任务。这些任务对开发者来说往往是苦活累活，他们可以借助Agent把精力解放出来，投入到其他更有创造力的领域。因此，现阶段的编程Agent，更多是在做从1到100的事情，还没到从0到1的阶段。我们看好编程Agent在未来2年内会逐渐承担更多的责任，但这需要底层模型能力和上层Agent框架的共同进步。

定价问题也很值得思考。传统的开发工具一般按使用者数量（seat-based）收费，但对编程Agent而言，按消耗量（consumption-based）付费可能更合理。一个优秀的、能完成大量任务的编程Agent，其价格可能值得和初级开发者处在同一数量级。

· 编程模型代表公司：Poolside, Magic

编程领域对模型能力的要求其实不完全一致。比如代码分词器（code tokenizer）要对代码中的变量、符号、函数名做专门切分。而且，主流LLM的训练目标函数是文本生成，代码能力看起来更像是智能的副产品。因此，出现了像Poolside和Magic这样的独立编程模型公司。Magic强调特别长的上下文窗口，能把企业中复杂的代码库完整读进来，尽量不依赖检索。Poolside则强调通过机器反馈进行强化学习，能把Git历史中复杂的工程链条完整解决。

不过，这一领域的公司处在OpenAI、Anthropic的主航道上。考虑到编程能力是模型推理能力最好的袋里指标，这两家巨头一定会基于LLM+RL的范式，持续提升编程能力。对于独立公司来说，挑战依然巨大。

面向普通用户的自动驾驶

· 任务引擎代表产品：Replit, Websim, Wordware

“任务引擎”对应的是“搜索引擎”。用户得到的，不再是基于搜索关键词的网页，而是基于用户需求实时生成的软件。我们用“任务引擎”这个词，是希望能淡化“软件”和“代码”带来的高门槛感。编程能力带来的杀手级应用，应该是大众用户都有意愿和能力去用的。Anthropic的Artifact和OpenAI的Canvas，某种程度上也是想实现这个目标，但产品形态并不是很好用，加上用户对主产品的预期还是聊天机器人。因此，现在的“任务引擎”还处在命令行时代，需要一个GUI级别的产品创新，来让更多用户理解并使用。

目前这类产品的形态还有很大分歧：

Replit Agent：
一个为编程Agent打造的云端IDE。产品使用多轮对话，每次执行操作都是渐进式的，遇到问题会向用户提问来补足上下文、厘清需求。这个过程有点像开发者和产品经理对需求。这种产品设计用对齐（alignment）解决了模型多步执行时的可靠性问题，但也要求用户对自己的需求想得比较清楚。
Wordware：
一个面向LLM应用的Notion。产品完成度高，使用体验有点像创作内容。通过一个讽刺bot在Twitter上走红，打响了病毒式增长的第一枪，有点像去年的Perplexity。但成为ProductHunt增长最快的产品后，流量又开始快速下降。高度依赖头部流量产品，是Wordware现在的挑战。
Websim：
用类似Google Chrome的简陋界面，打造了一个用户可以同时创作和消费网页应用的产品。想象空间很大，用户可以在别人模板的基础上继续生成和修改，有点像Canva的模板化思路。而且用户在Websim上做的网站，每个超链接都可以点击并深入生成新的网站。不过产品设计细节还欠打磨，有点像Character.ai，有一个好框架但产品还不够极致。

· 前端生成代表公司：Vercel (V0), Stackblitz (Bolt.new)

这个领域的公司之前在前端框架和部署领域就有比较深的积累。比如Vercel是Next.js框架的发明者，主要业务是前端网站的部署，ARR已经超过1亿美元。它们的V0产品一直在进步，无论是审美风格还是对话修改体验，都比刚发布时好了很多。另一个很火的产品是bolt.new，也能通过一句话把产品需求变成一个不错的网页应用。它的进步速度更快，同样的指令，每隔一两周都能看到生成质量的提升。

这类产品的效果已经接近可用了，但在实际持续使用时，会遇到一些问题。生成的网页应用demo非常优秀，但由于技术栈比较杂乱，产品真正开始有规模后，很难维护和管理。因此，前端生成的未来使用场景很可能是“一次性应用”——这个网页的生成，就是为了服务某个临时的、长尾的需求，不需要为更大的群体和更长的时间去维护。前端是开发中相对容易上手的领域，所以之前每一代Low-Code/No-Code都会讲“前端民主化”的故事，诞生了WordPress、Wix、Shopify这样的公司。这个市场很大，但需求比较零碎，头部集中度不高。AI前端生成现在看起来很有前景，但它们是否能抓住大量的增量需求，甚至替代过去的存量需求？这直接决定了其市场规模的上限。

03. 开放讨论

1) 编程能力的民主化？不，是软件工程的民主化。

技术带来一个领域的民主化，这是很多领域都发生过的故事。比如Canva，成了“设计师民主化”的一站式模板和设计平台。那么开发领域是否也会有类似的民主化故事？我们认为会民主化的不是编程能力，而是软件工程。这意味着，随着AI编程的到来，软件的制造成本会大幅下降，但用户不一定需要理解代码是如何操作和执行的，只需要明白高层级的运行逻辑即可。也就是说，用户不需要是开发者，但需要是自己需求的产品经理。

2) UI/UX：同步与异步，GUI时刻的到来。

未来的开发体验，可能由同步和异步共同组成。同步部分：开发者一边写代码，AI一边在后台同步做代码测试、审查、优化。异步部分：在o1的范式下，推理时计算能把编程任务拆解成多个子任务，推理出最合适的解决方案并自己验证。而未来更广义的AI编程也是如此：很多软件可以实时根据上下文来生成，而真正复杂的任务则不需要实时交互，AI能异步地完成，并通过邮件等方式向用户同步。现在的产品交互门槛还是偏高，有点像GUI到来前的命令行时代。等待新交互到来时，AI应用的空间会被打开，而编程领域，很可能是最先被验证和感知到的。

AI Coding 最全图谱：Agent 将如何颠覆软件

01. 投资主线

1）编程能力是LLM + RL范式下进化最快的方向，它会是第一个从“副驾驶”向“自主袋里”渐进演化的领域。

2）“任务引擎”会把市场从5000万开发者，拓展到5亿知识工作者。

3）“面向专业开发者的副驾驶”和“面向普通用户的袋里”，是当前模型能力与产品需求最匹配的两个象限。

左下象限：面向专业开发者的副驾驶。

右上象限：面向普通用户的袋里。

左上象限：面向专业开发者的袋里。

右下象限：面向普通用户的副驾驶。

02. AI编程图景现状

面向专业开发者的副驾驶：

面向专业开发者的袋里：

面向普通用户的袋里：