首页 > 教程攻略 > ai资讯 >BrowserBC - Einsia AI 旗下开源的浏览器操作轨迹生成 Skill

BrowserBC - Einsia AI 旗下开源的浏览器操作轨迹生成 Skill

来源:互联网 时间:2026-06-30 15:56:28

BrowserBC是什么

先说结论:BrowserBC 是 Einsia AI 旗下 Na vers Lab 开源的一个项目,它的目标很明确——让 Web Agent 学会“复制”人类在浏览器中的操作经验。具体怎么操作呢?你只需要在浏览器里亲手把任务做一遍,系统就能自动把这段操作过程“蒸馏”成一张结构化的“技能卡”。然后,任何模型都可以拿着这张卡去执行相同的任务。说白了,就是“做一次,复用无数次”。

BrowserBC的主要功能

  • 轨迹录制

    :通过浏览器扩展,完整记录任务全过程。页面截图、DOM 快照、用户动作(点击、输入、跳转)、页面反馈以及最终状态,一个不落。
  • 智能蒸馏

    :原始轨迹往往很嘈杂,系统会先清洗、去噪,然后按语义切分成连贯的子过程,再转写成结构化的自然语言技能卡。这步操作的关键在于:它会剥离掉坐标、选择器这类脆弱细节,只保留“该做什么、怎么判断完成、失败了怎么办”这类可迁移的过程性知识。
  • 技能图管理

    :海量技能不会乱放,它们会被组织成一个可扩展的技能图(skill graph)。通过语义相似度自动合并、特化、链接相关技能,避免重复和冗余。
  • 技能检索与执行

    :Agent 拿到技能卡后,不再机械复刻坐标,而是根据卡上的指导,结合实时页面状态自主落地操作。灵活性大大提升。
  • 本地部署

    :提供 Journey Forge Local 版本,纯 Python 运行,数据全部本地存储。支持与 Claude Code 和 Claude Desktop 集成。

如何使用BrowserBC

  • 配置并运行本地服务器

    :复制配置文件,设置好 LLM API Key,启动服务器后访问 http://127.0.0.1:8099/ 控制面板。
  • 构建并加载浏览器扩展

    :在 extension 目录下安装依赖并进行构建,之后在 Chrome 扩展管理中以开发者模式加载 extension/dist/chrome-mv3
  • 录制任务

    :使用扩展录制浏览器操作,停止后标记任务意图并上传。
  • 自动蒸馏

    :后台流水线会自动完成 atomize→classify→bucket→distill→install 这几个步骤,大约 1-3 分钟就能生成一张技能卡。
  • 使用技能

    • Claude Code

      :技能会自动安装到 ~/.claude/skills/ 目录下。
    • Claude Desktop

      :从控制面板下载 .zip 文件,在 Settings → Skills 中上传即可。
  • 配置浏览器执行

    (可选):在控制面板中配置 Playwright MCP,这样 Claude Desktop 就能实现实际点击、输入和导航了。

BrowserBC的核心优势

  • 技能可迁移

    :技能是自然语言形式的“过程性先验”,可以在不同模型之间自由传递和复用。强模型蒸馏一次,小模型也能便宜复用。
  • 剥离脆弱细节

    :不克隆坐标或 DOM 选择器,而是克隆“做什么 + 怎么判断完成”。这意味着即使页面布局变化,技能依然能举一反三。
  • 显著提升成功率

    :数据说话。在 WebArena-Hard 上,成功率从 60.5% 提升至 81.4%(+20.9%);在 ClawBench 上,从 32.9% 提升至 68.4%(+35.5%)。
  • 提升交互效率

    :平均工具调用次数从 31.2 次降至 22.7 次(减少 27.3%),无效试探性导航大幅减少。
  • 跨域迁移潜力

    :过程性先验可以跨越浏览器边界,初步研究显示,这种能力还能迁移到 OSWorld 桌面环境。
  • 数据隐私安全

    :本地部署版本所有数据存储在本地,只有蒸馏时才调用配置的 LLM API,安全性有保障。

BrowserBC的官网地址

  • 项目博客

    :https://lab.einsia.ai/browserbc/
  • GitHub 仓库

    :https://github.com/Einsia/Browser-BC
  • 论文

    :https://lab.einsia.ai/browserbc/paper

BrowserBC的同类竞品对比

维度 BrowserBC 传统 RPA / 按键精灵 Playwright / MCP 工具 通用 Web Agent(如 Claude/Codex)

核心定位

人类轨迹 → 可复用技能 录制坐标 → 机械回放 浏览器控制 API 从零探索网页

复用方式

自然语言技能卡,语义化复用 固定坐标/选择器回放 需编写代码脚本 每次任务重新摸索

页面变化适应性

强(剥离脆弱细节) 极弱(布局一变即失效) 中等(需维护选择器) 强(实时感知页面)

知识积累

可积累技能图,持续扩展 脚本堆积,难以管理 依赖代码库维护 无积累,每次从零开始

执行成本

强模型蒸馏一次,小模型便宜复用 运行成本低 开发成本高 每次需调用最强模型

数据隐私

本地部署,数据不出机器 本地运行 本地/云端均可 通常依赖云端 API

BrowserBC的应用场景

  • 旅行预订与比价

    :在 Airbnb、Booking 等预订网站输入时间、地点、人数,应用筛选器(评分、价格、设施),阅读搜索结果并排序,找出最优住宿选项。
  • 电商购物与筛选

    :在购物平台搜索商品、应用多重筛选条件(价格区间、品牌、评分)、对比商品详情、加入购物车并完成结算。
  • 后台管理操作

    :在电商后台、CMS 系统或管理面板中执行商品上架、订单处理、库存更新、用户权限配置等重复性管理任务。
  • 社区论坛互动

    :在 Reddit 等论坛中搜索话题、筛选帖子、参与讨论、收集信息或执行版主管理操作。
  • 跨站点信息整合

    :需要从多个网站采集、对比并整合信息的任务,比如跨平台比价、多源数据汇总、竞品监控。
  • 开发工具使用

    :在 GitHub、GitLab 等开发平台执行代码仓库操作(登录、创建项目、提交 Issue、合并请求)、CI/CD 配置或文档查阅。