首页 > 教程攻略 > ai资讯 >上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

来源：互联网时间：2026-06-15 15:07:29

AI编码智能体到底能不能看懂代码？这个问题，最近有了一个更精确的答案。

由上海交通大学参与的国际研究团队，今天正式发布了一款全新的基准测试工具——SWE-Explore。它的核心贡献，是把AI智能体在代码搜索和实际修复这两个阶段拆开来看，第一次用定量的方式，揭示了当前智能体在“行级精度”上的短板。过去大家看AI修Bug，基本只盯着“最终修没修好”，这个单一指标其实掩盖了很多问题。SWE-Explore的诞生，相当于给行业提供了一把新尺子，专门用来量一量智能体在前期搜索和理解代码上到底行不行。整个AI软件工程评测，正在因此进入更深的水域。

传统基准测试的问题在哪？说白了，就是只看结果，不看过程。比如经典的SWE-bench，你给智能体一个Bug报告，它修好了就算对，修不好就算错。但整个过程里，智能体到底有没有真正读懂代码？它找到关键行的能力够不够？这些都被忽略了。基于GPT-5.4、Gemini3Pro、Claude Sonnet4.6以及Kimi K2.6这些主流大模型的实际运行轨迹，研究团队提取了多条独立解路径交汇的共识代码段作为参考标准，最终构建了一个覆盖10种编程语言、203个开源项目、包含848个缺陷任务的数据集。这个数据集，就是SWE-Explore用来“拆解”智能体能力的底层工具。

评测结果让人有些意外。像Claude Code、OpenHands这类通用编码智能体，在“文件级”定位上的表现其实相当不错，能把Bug锁定到具体哪个文件。但一旦要求精确到文件里的具体某一行代码，核心区域的覆盖率就骤降到14%到19%之间。换句话说，它们能找到房间，却找不到房间里那颗螺丝钉。消融实验进一步暴露了一个关键规律，研究团队称之为“最小上下文阈值”效应：当关键代码区域的可见比例低于50%时，模型几乎不可能完成修复；而一旦这个比例跨越50%到75%的区间，修复成功率才会出现断崖式回升。这说明，智能体的瓶颈不在于“怎么写补丁”，而在于“有没有看到真正需要看的那几行代码”。

这个结论放在当下的行业背景里看，格外有分量。现实中，不少项目经理拒绝了一半以上的自动化采纳方案，背后原因往往不是AI修得不对，而是AI找不到关键点。SWE-Explore提出的技术导向很明确：“少过滤、多阅读”。这意味着，下一代专门化代码定位系统，比如CoSIL这类架构，下一步的优化方向应该是怎么帮助智能体更精准地抓住关键上下文，而不是一味地增加代码生成能力。整个自动化软件工程的范式，正在从“暴力生成”转向“精准检索”。这步棋走对了，效率提升的可就不止一点点。

上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

相关阅读

相关下载