BrowserBC - Einsia AI 旗下开源的浏览器操作轨迹生成 Skill
来源:互联网
时间:2026-06-30 15:56:28
BrowserBC是什么
先说结论:BrowserBC 是 Einsia AI 旗下 Na vers Lab 开源的一个项目,它的目标很明确——让 Web Agent 学会“复制”人类在浏览器中的操作经验。具体怎么操作呢?你只需要在浏览器里亲手把任务做一遍,系统就能自动把这段操作过程“蒸馏”成一张结构化的“技能卡”。然后,任何模型都可以拿着这张卡去执行相同的任务。说白了,就是“做一次,复用无数次”。
BrowserBC的主要功能
- :通过浏览器扩展,完整记录任务全过程。页面截图、DOM 快照、用户动作(点击、输入、跳转)、页面反馈以及最终状态,一个不落。
轨迹录制
- :原始轨迹往往很嘈杂,系统会先清洗、去噪,然后按语义切分成连贯的子过程,再转写成结构化的自然语言技能卡。这步操作的关键在于:它会剥离掉坐标、选择器这类脆弱细节,只保留“该做什么、怎么判断完成、失败了怎么办”这类可迁移的过程性知识。
智能蒸馏
- :海量技能不会乱放,它们会被组织成一个可扩展的技能图(skill graph)。通过语义相似度自动合并、特化、链接相关技能,避免重复和冗余。
技能图管理
- :Agent 拿到技能卡后,不再机械复刻坐标,而是根据卡上的指导,结合实时页面状态自主落地操作。灵活性大大提升。
技能检索与执行
- :提供 Journey Forge Local 版本,纯 Python 运行,数据全部本地存储。支持与 Claude Code 和 Claude Desktop 集成。
本地部署
如何使用BrowserBC
- :复制配置文件,设置好 LLM API Key,启动服务器后访问 http://127.0.0.1:8099/ 控制面板。
配置并运行本地服务器
- :在
构建并加载浏览器扩展
extension目录下安装依赖并进行构建,之后在 Chrome 扩展管理中以开发者模式加载extension/dist/chrome-mv3。 - :使用扩展录制浏览器操作,停止后标记任务意图并上传。
录制任务
- :后台流水线会自动完成 atomize→classify→bucket→distill→install 这几个步骤,大约 1-3 分钟就能生成一张技能卡。
自动蒸馏
- :
使用技能
- :技能会自动安装到
Claude Code
~/.claude/skills/目录下。 - :从控制面板下载
Claude Desktop
.zip文件,在 Settings → Skills 中上传即可。
- (可选):在控制面板中配置 Playwright MCP,这样 Claude Desktop 就能实现实际点击、输入和导航了。
配置浏览器执行
BrowserBC的核心优势
- :技能是自然语言形式的“过程性先验”,可以在不同模型之间自由传递和复用。强模型蒸馏一次,小模型也能便宜复用。
技能可迁移
- :不克隆坐标或 DOM 选择器,而是克隆“做什么 + 怎么判断完成”。这意味着即使页面布局变化,技能依然能举一反三。
剥离脆弱细节
- :数据说话。在 WebArena-Hard 上,成功率从 60.5% 提升至 81.4%(+20.9%);在 ClawBench 上,从 32.9% 提升至 68.4%(+35.5%)。
显著提升成功率
- :平均工具调用次数从 31.2 次降至 22.7 次(减少 27.3%),无效试探性导航大幅减少。
提升交互效率
- :过程性先验可以跨越浏览器边界,初步研究显示,这种能力还能迁移到 OSWorld 桌面环境。
跨域迁移潜力
- :本地部署版本所有数据存储在本地,只有蒸馏时才调用配置的 LLM API,安全性有保障。
数据隐私安全
BrowserBC的官网地址
- :https://lab.einsia.ai/browserbc/
项目博客
- :https://github.com/Einsia/Browser-BC
GitHub 仓库
- :https://lab.einsia.ai/browserbc/paper
论文
BrowserBC的同类竞品对比
| 维度 | BrowserBC | 传统 RPA / 按键精灵 | Playwright / MCP 工具 | 通用 Web Agent(如 Claude/Codex) |
|---|---|---|---|---|
核心定位 |
人类轨迹 → 可复用技能 | 录制坐标 → 机械回放 | 浏览器控制 API | 从零探索网页 |
复用方式 |
自然语言技能卡,语义化复用 | 固定坐标/选择器回放 | 需编写代码脚本 | 每次任务重新摸索 |
页面变化适应性 |
强(剥离脆弱细节) | 极弱(布局一变即失效) | 中等(需维护选择器) | 强(实时感知页面) |
知识积累 |
可积累技能图,持续扩展 | 脚本堆积,难以管理 | 依赖代码库维护 | 无积累,每次从零开始 |
执行成本 |
强模型蒸馏一次,小模型便宜复用 | 运行成本低 | 开发成本高 | 每次需调用最强模型 |
数据隐私 |
本地部署,数据不出机器 | 本地运行 | 本地/云端均可 | 通常依赖云端 API |
BrowserBC的应用场景
- :在 Airbnb、Booking 等预订网站输入时间、地点、人数,应用筛选器(评分、价格、设施),阅读搜索结果并排序,找出最优住宿选项。
旅行预订与比价
- :在购物平台搜索商品、应用多重筛选条件(价格区间、品牌、评分)、对比商品详情、加入购物车并完成结算。
电商购物与筛选
- :在电商后台、CMS 系统或管理面板中执行商品上架、订单处理、库存更新、用户权限配置等重复性管理任务。
后台管理操作
- :在 Reddit 等论坛中搜索话题、筛选帖子、参与讨论、收集信息或执行版主管理操作。
社区论坛互动
- :需要从多个网站采集、对比并整合信息的任务,比如跨平台比价、多源数据汇总、竞品监控。
跨站点信息整合
- :在 GitHub、GitLab 等开发平台执行代码仓库操作(登录、创建项目、提交 Issue、合并请求)、CI/CD 配置或文档查阅。
开发工具使用