微软 Webwright 开源:网页智能体从“点击式”进化为“代码式”
来源:互联网
时间:2026-05-26 19:44:44
微软研究院最近开源了一个全新的网页智能体框架,名字叫
Webwright
Playwright

为何要从“点击”转向“写代码”?
现在市面上大多数智能体,工作方式就是不停地预测下一个“点击哪里”、“滚动多少”、“输入什么”来操作浏览器。这种模式效率不高,而且很难维持稳定的任务状态。相比之下,Webwright这种代码驱动的模式,优势就相当明显了:
- 每次操作生成的都是可以重复使用的RPA(机器人流程自动化)脚本,而不是一次性的点击记录。这些脚本以后还能被Claude Code、Codex等其他工具直接调用。
逻辑可以复用:
- 代码天然就支持循环、函数和条件判断。对于那些需要填写表单、跨页面操作、根据条件跳转的长链条任务,代码的表达能力,可比简单地把一堆动作堆在一起强太多了。
能处理复杂逻辑:
- 如果代码执行报错了,模型可以通过分析错误堆栈,自己进入“写代码-运行-报错-修复”的迭代循环。这套机制,让任务的成功率得到了极大的提升。
工程化的纠错流程:
工程突破:解决“伪成功”与“上下文膨胀”
针对智能体经常遇到的两个老大难问题,Webwright引入了针对性的解决方案:
- 这个机制是为了防止模型产生“幻觉”,错误地宣布任务已经完成。具体做法是,模型必须先生成一份“自检配置”,然后在一个干净的环境中运行最终脚本。通过这种自我反思,判断任务是否真的达成了,最后才能输出完成标记。
门控自检机制:
- 为了解决长任务轨迹导致的上下文信息过载问题,系统每执行20步,就会把之前的对话历史压缩成一份概要摘要。这样一来,就能确保上下文窗口始终聚焦在最核心的任务进展上。
历史压缩:
测试表现:性能碾压基准线
在2026年5月的基准测试中,Webwright的表现相当亮眼:
- 基于GPT-5.4的Webwright,在100步的预算限制下,达到了
Online-Mind2Web基准测试:
的准确率,在同类开源方案中名列前茅。86.67%
- 面对平均长达272个单词的复杂指令,Webwright + GPT-5.4的组合取得了
Odysseys(长链路任务)基准测试:
的得分。这个成绩,相比基础版的GPT-5.4(33.5%),实现了约60.1%
,并且超越了同年4月榜单的冠军模型Opus4.6(44.5%)。81.5%的性能提升
行业评价
Webwright的出现,揭示了一个重要的趋势:随着模型编程能力的不断增强,智能体正在向“开发者范式”转型。它不再把浏览器仅仅看作一个交互界面,而是将其视为一个可编程的端点。正是这种视角的转换,成功地将AI执行网页任务的效率和鲁棒性,提升到了一个新的高度。
对于广大开发者来说,Webwright不仅仅是一个智能体框架,它更像是一个能帮你自动编写、维护和打包自动化脚本的“超级员工”。目前,这个项目已经在GitHub上开源了。