上海交大等团队推出 SWE-Explore 基准测试,揭示 AI 编码智能体行级定位缺陷
AI编码智能体到底能不能看懂代码?这个问题,最近有了一个更精确的答案。
由上海交通大学参与的国际研究团队,今天正式发布了一款全新的基准测试工具——SWE-Explore。它的核心贡献,是把AI智能体在代码搜索和实际修复这两个阶段拆开来看,第一次用定量的方式,揭示了当前智能体在“行级精度”上的短板。过去大家看AI修Bug,基本只盯着“最终修没修好”,这个单一指标其实掩盖了很多问题。SWE-Explore的诞生,相当于给行业提供了一把新尺子,专门用来量一量智能体在前期搜索和理解代码上到底行不行。整个AI软件工程评测,正在因此进入更深的水域。
传统基准测试的问题在哪?说白了,就是只看结果,不看过程。比如经典的SWE-bench,你给智能体一个Bug报告,它修好了就算对,修不好就算错。但整个过程里,智能体到底有没有真正读懂代码?它找到关键行的能力够不够?这些都被忽略了。基于GPT-5.4、Gemini3Pro、Claude Sonnet4.6以及Kimi K2.6这些主流大模型的实际运行轨迹,研究团队提取了多条独立解路径交汇的共识代码段作为参考标准,最终构建了一个覆盖10种编程语言、203个开源项目、包含848个缺陷任务的数据集。这个数据集,就是SWE-Explore用来“拆解”智能体能力的底层工具。

评测结果让人有些意外。像Claude Code、OpenHands这类通用编码智能体,在“文件级”定位上的表现其实相当不错,能把Bug锁定到具体哪个文件。但一旦要求精确到文件里的具体某一行代码,核心区域的覆盖率就骤降到14%到19%之间。换句话说,它们能找到房间,却找不到房间里那颗螺丝钉。消融实验进一步暴露了一个关键规律,研究团队称之为“最小上下文阈值”效应:当关键代码区域的可见比例低于50%时,模型几乎不可能完成修复;而一旦这个比例跨越50%到75%的区间,修复成功率才会出现断崖式回升。这说明,智能体的瓶颈不在于“怎么写补丁”,而在于“有没有看到真正需要看的那几行代码”。
这个结论放在当下的行业背景里看,格外有分量。现实中,不少项目经理拒绝了一半以上的自动化采纳方案,背后原因往往不是AI修得不对,而是AI找不到关键点。SWE-Explore提出的技术导向很明确:“少过滤、多阅读”。这意味着,下一代专门化代码定位系统,比如CoSIL这类架构,下一步的优化方向应该是怎么帮助智能体更精准地抓住关键上下文,而不是一味地增加代码生成能力。整个自动化软件工程的范式,正在从“暴力生成”转向“精准检索”。这步棋走对了,效率提升的可就不止一点点。