Ego Lite - 专为AI Agent设计的浏览器,实现人与AI协同工作
来源:互联网
时间:2026-07-04 14:41:09
Ego Lite是什么
简单说,Ego Lite 是 Citro Labs 专门为 AI Agent 打造的一款 Chromium 浏览器。它解决的是传统自动化工具(比如 Playwright、Puppeteer)驱动浏览器时的那几个老大难问题:登录态动不动就丢了、资源占用高得离谱、还总是干扰用户正常浏览。它的核心设计思路,是实现人类用户和 AI Agent 在同一台机器上的协同工作。Agent 可以通过 CLI 在一个独立的“任务空间”里静默驱动浏览器,执行页面读取、点击、API 探测、截图验证这些操作,并且能直接借用用户的登录态,完全不影响你正在用的正常窗口。
Ego Lite的主要功能
- :通过
语义快照提取
snapshotText()获取页面的文本、按钮、链接等可点击元素的语义化结构。这招很实用,Agent 能直接“看懂”页面的交互骨架,而不是面对一堆原始 HTML 标签。 - :支持
元素交互操作
click、fillInput等指令,Agent 可以精准点击按钮、填写表单,就像真人操作一样。 - :通过
底层脚本执行
js()在页面上下文中执行 Ja vaScript,直接读取 DOM 状态与前端数据。这意味着能绕过很多限制,拿到渲染后的真实结果。 - :通过
浏览器协议调用
cdp()调用 Chrome DevTools Protocol,实现网络请求拦截与深度调试。这给了 Agent 接近“浏览器内核”级别的控制力。 - :
截图视觉验证
captureScreenshot支持视觉工作流,特别适合富文本、地图、白板这类非标准 DOM 场景的验证。 - :
网络请求抓取
browserFetch可直接发起或拦截浏览器内部请求,获取前端真实 API 返回的数据。 - :每个任务拥有独立的
任务空间隔离
task space(标签页组),复用登录态且互不干扰。
Ego Lite的技术原理
它的技术架构可以拆解为三个层面:
- :Ego Lite 在 Chromium 内核之上构建了一套面向 Agent 的 CLI 操作层。安装后系统会暴露一个 Node.js 运行时,Agent 通过
基于 Chromium 的 Agent 驱动层
ego-browser nodejs执行预置脚本,脚本里封装了snapshotText、click、js、cdp、browserFetch这些 helper 函数。 - :
三层工作流架构
- :优先使用
语义工作流
snapshotText()提取页面可交互元素的语义信息,适合标准网页结构。这是最快、最高效的方式。 - :当 DOM 和真实界面不一致时(比如 Canvas、SVG、地图),回退到截图 + 坐标 + 键盘动作进行验证。
视觉工作流
- :通过
底层工作流
js()注入页面上下文执行代码,或通过cdp()直接调用 Chrome DevTools Protocol,读取前端状态、探测隐藏 API 接口、解析前端 bundle。这是最底层的保底方案。
- :每个任务空间是一个独立的浏览上下文,拥有专属标签页,默认继承当前用户的 Cookie 与登录态。Agent 可以在需要登录的站点内自由操作,但完全不会抢占你正在使用的浏览器窗口。
Task Space 隔离机制
如何使用Ego Lite
- :访问官网 https://lite.ego.app/ 下载 Ego Lite 应用,安装后可以一键迁移 Chrome 数据——书签、扩展、Cookie、登录态都能直接带过来。
下载安装
- :在 Agent 工具里运行
安装 Agent 技能包
npx skills add citrolabs/ego-lite,自动安装ego-browserCLI 技能。 - :安装完成后重启 Agent,确保技能包被正确加载。
重启 Agent
- :在 Agent 对话中输入
下发浏览器任务
@ego lite或直接输入ego-browser开头的指令,描述需要浏览的网页与操作目标。 - :Agent 自动创建 task space,打开目标页面,读取语义快照或执行 Ja vaScript,获取数据后关闭任务空间并返回结果。
Agent 静默执行
- :当任务需要人工确认时,Agent 可以暂停并交还控制权,用户确认后继续执行。
人工介入(可选)
Ego Lite的核心优势
- :Agent 在独立 task space 中运行,不会抢占用户当前浏览器标签页,也不会触发前台弹窗。这一点体验非常好。
不干扰用户窗口
- :无需额外配置账号密码,Agent 可直接访问需要登录的站点,比如邮箱、内部系统。
继承登录态
- :语义 + 视觉 + 底层协议,适配从标准网页到复杂富媒体页面的全场景。
三层工作流覆盖
- :通过
前端状态可读
js()直接读取 React/Vue 等框架的内部状态,探测真实 API 接口,这一点突破了传统爬虫的诸多限制。 - :Agent 可以执行真实操作并读取真实返回,将模型判断与浏览器现场校准结合,有效减少幻觉。
现场验证能力
Ego Lite的项目地址
- :https://lite.ego.app/
项目官网
- :https://github.com/citrolabs/ego-lite
GitHub仓库
Ego Lite的同类竞品对比
| 对比维度 | Ego Lite |
Browser-use |
|---|---|---|
定位 |
基于 Chromium 的 Agent 专用浏览器 |
基于 Playwright 的 AI 网页自动化库 |
架构方式 |
独立浏览器应用 + CLI 技能包,安装后 Agent 通过 ego-browser 调用 |
Python 库,开发者通过 API 调用,需自行搭建运行环境 |
登录态处理 |
一键迁移 Chrome 数据,自动继承用户登录态 |
需手动配置 Cookie 或独立登录流程,无浏览器数据迁移能力 |
用户干扰 |
Task Space 隔离 |
通常作为独立进程运行,无原生用户界面,但需开发者管理浏览器实例 |
视觉理解 |
内置三层工作流(语义/视觉/底层),captureScreenshot 原生支持视觉验证 |
支持截图 + 多模态模型理解,但需额外配置视觉模型 API |
使用门槛 |
非技术人员 |
面向开发者 |
底层协议 |
原生暴露 cdp() 和 js(),可直接调用 Chrome DevTools Protocol |
通过 Playwright 封装间接访问,底层可控性较弱 |
Ego Lite的应用场景
- :Agent 可以设定周期定时访问多个订阅站点,提取最新文章标题、链接与摘要,自动生成日报。
信息聚合与监控
- :自动访问竞品官网、应用商店、社交媒体,抓取版本更新、定价变动、用户评论等信息。
竞品动态追踪
- :在继承登录态的前提下,Agent 操作企业内部后台,查询数据、填写报表。
内部系统自动化
- :在 Vibe Coding 场景下,Agent 自动打开开发中的 Web 应用,执行功能点击流并截图验证 UI 状态。
Web 应用验收测试
- :访问需要登录的学术数据库、付费内容站点,Agent 读取页面结构、探测 API、下载或整理资料。
深度资料调研