微软 Webwright 开源：网页智能体从“点击式”进化为“代码式”

来源：互联网时间：2026-05-26 19:44:44

微软研究院最近开源了一个全新的网页智能体框架，名字叫

Webwright

。这个框架的思路有点不一样，它放弃了现在主流的“看截图、点DOM元素”的模式，而是让AI模型直接在终端里编写

代码和执行Bash命令，用更高效、更有逻辑的方式来搞定复杂的网页任务。

微软 Webwright 开源：网页智能体从“点击式”进化为“代码式”

现在市面上大多数智能体，工作方式就是不停地预测下一个“点击哪里”、“滚动多少”、“输入什么”来操作浏览器。这种模式效率不高，而且很难维持稳定的任务状态。相比之下，Webwright这种代码驱动的模式，优势就相当明显了：

逻辑可以复用：
每次操作生成的都是可以重复使用的RPA（机器人流程自动化）脚本，而不是一次性的点击记录。这些脚本以后还能被Claude Code、Codex等其他工具直接调用。
能处理复杂逻辑：
代码天然就支持循环、函数和条件判断。对于那些需要填写表单、跨页面操作、根据条件跳转的长链条任务，代码的表达能力，可比简单地把一堆动作堆在一起强太多了。
工程化的纠错流程：
如果代码执行报错了，模型可以通过分析错误堆栈，自己进入“写代码-运行-报错-修复”的迭代循环。这套机制，让任务的成功率得到了极大的提升。

针对智能体经常遇到的两个老大难问题，Webwright引入了针对性的解决方案：

门控自检机制：
这个机制是为了防止模型产生“幻觉”，错误地宣布任务已经完成。具体做法是，模型必须先生成一份“自检配置”，然后在一个干净的环境中运行最终脚本。通过这种自我反思，判断任务是否真的达成了，最后才能输出完成标记。
历史压缩：
为了解决长任务轨迹导致的上下文信息过载问题，系统每执行20步，就会把之前的对话历史压缩成一份概要摘要。这样一来，就能确保上下文窗口始终聚焦在最核心的任务进展上。

在2026年5月的基准测试中，Webwright的表现相当亮眼：

Online-Mind2Web基准测试：
基于GPT-5.4的Webwright，在100步的预算限制下，达到了
86.67%
的准确率，在同类开源方案中名列前茅。
Odysseys（长链路任务）基准测试：
面对平均长达272个单词的复杂指令，Webwright + GPT-5.4的组合取得了
60.1%
的得分。这个成绩，相比基础版的GPT-5.4（33.5%），实现了约
81.5%的性能提升
，并且超越了同年4月榜单的冠军模型Opus4.6（44.5%）。