首页 > 教程攻略 > ai资讯 >Browser Use自测: 控制浏览器Agent,人机验证是一大难点

Browser Use自测: 控制浏览器Agent,人机验证是一大难点

来源:互联网 时间:2026-06-16 14:24:20

这是关于 Browser Use 应用的一次深度拆解,不谈虚的。

核心内容分四块:

  • Browser Use 的便捷操作与功能局限
  • 两大应用场景及面临的验证难题
  • 实际部署和应用测试中踩到的坑
  • 以及一些替代工具的横评

先说说这个工具能做什么。目前,Browser Use 支持用自然语言直接描述命令,AI 就能帮你自动执行。比如,用户只要说一句“打开5个Bing网页”,过往那些繁琐的代码操作就省了。

但老实说,现在这个工具还不算特别成熟,主要局限在一些简单任务上:在特定网站上传文件、同时打开多个标签页搜索不同内容、或者在 HuggingFace 上根据下载量排名找项目——这些活儿它能干,但再复杂一点就吃力了。

从应用场景来看,这类控制浏览器的 Agent,理论上应该主攻两大方向:自动化平台内容发布,以及网页数据自动化采集回本地。这两个场景,通常都需要登录进入特定平台,而不是像 HuggingFace 或 Google 那样可以直接搜搜就拿到内容。

问题就卡在这里了。很多网页都部署了机器人验证,比如 Google 的 reCAPTCHA——就是那些让你勾选自行车、红绿灯的图片验证。手动点都嫌烦,机器更难绕过去。另一个头疼的点是登录验证:比如豆包搜索数据需要扫码或者手机号登录,Twitter 和 Chromium 也需要输入登录信息。如果这些验证能绕过去,体验会好很多,但目前还没有现成的成熟方案。

下面进入实际部署和测试环节,直接走一遍流程。

01

为避免环境冲突,建议用 conda 专门创建一个环境。命令行先安装依赖。

直接把 GitHub 文件下载下来,里面有不少模板 py 文件,可以在这些基础上改。比如打开多个 tab 搜索、让 AI 查机票等,都有现成模板。

比较容易踩的一个坑是

Playwright

错误。你可能会看到类似这样的报错:

1234567ERROR    [browser] Failed to initialize Playwright browser: BrowserType.launch: Executable doesn't exist at Library/Caches/ms-playwright/chromium-1148/chrome-mac/Chromium.app/Contents/MacOS/Chromium
╔════════════════════════════════════════════════════════════╗
║ Looks like Playwright was just installed or updated.       ║
║ Please run the following command to download new browsers: ║
║                                                            ║
║     playwright install                                     ║
║                                                            ║
╚════════════════════════════════════════════════════════════╝

注意,这里需要安装的是 Playwright 自带的 Chromium 浏览器,不是我们日常用的 Chrome。——这也是为什么需要登录注册的应用会比较麻烦。

Playwright 安装成功后,会显示下面这样的执行界面。

自定义 OpenAI API

在 env 环境变量里修改 OPENAI_BASE_URL 和 OPENAI_API_KEY 后,经测试发现系统检测不到。最稳妥的方法是把 api key 和 base url 直接写到 ChatOpenAI 里:

891011llm = ChatOpenAI(
    model='gpt-4o',
    base_url= os.getenv("OPENAI_BASE_URL"),
    api_key=os.getenv("OPENAI_API_KEY "),

调用一次 GPT-4o 的成本大约是 0.1 元。

Windsurf

额度方面,我目前已经删掉了 VS Code,改用 Windsurf。这个 IDE 本身嵌入了 AI 对话工具,不需要额外下载插件。

写代码时,Windsurf 会自动提示可能会用到的代码片段。现在它也更新了 AI 搜索问答功能,@ 链接后,AI 能帮你整理网页内容。

通过 Cascade 功能告诉 Windsurf 要运行什么应用,AI 就能直接执行;也可以直接描述开发任务,AI 会帮你创建各个文件、生成代码。对上下文的理解能力比 Cursor 要强一些。

简单测试下来,对话框 AI 生成代码的效果,不如 Claude、ChatGPT 和豆包结合着用。我本人不是程序员,也没怎么敲过代码,这只是简单测试。对专业程序员来说,这个工具应该还是有帮助的——毕竟连淘宝上都有各种方案在卖付费链接了。

我测试时没有设置 Prompt,用的是默认方案。可以创建 .windsurfrules 文件设置 Prompt,让 AI 按你的需求来回答。后续打算再深入研究一下,总之 VS Code 是回不去了。

豆包

可以直接连接 GitHub 库,能更智能地理解代码上下文,提供更精准的建议。但生成的代码还是会出现明显的错误,执行不了。

Claude

生成的代码更专业、更准确。但 Claude 生成的代码——我上传了4个 Browser Use 的使用案例——并没有很好地结合该库的特点,没有太理解上下文。其实右侧打开浏览器的步骤完全可以用自然语言叙述,放在 Agent 的 task 里,但 Claude 没有考虑到这个框架 task 的作用。上面提到的豆包反而考虑到了,可能因为它把整个 GitHub 库都传过去了。

ChatGPT 则用来解释代码,以及在 Claude 额度用完时作备用。

02

内容平台分发

以 Substack 为例,需要输入网站登录信息:邮箱、密码。

1314151617 task_description = (
        f"go to https://pamperherself.substack.com/publish/home, "
        f"enter your email:{email},click sign in with password,enter your password:{password},if the email still needed then enter your email again:{email}"
        f"create a new post, paste the following content: {user_content}, "
        f"add the Thistle tag, and click publish"

但即便这样写死登录流程,仍然会触发“I'm not a robot”验证。

下图这些五颜六色的数字编号,其实就是 Browser Use 在起作用,它让 AI 知道每个元素的含义,以便进一步操作。

这就引出了 AI 控制浏览器类 Agent 的通用难题——

怎么绕过登录和机器人验证

豆包新闻搜索

中文内容建议直接通过豆包搜索、ima 搜索等 AI 搜索工具去查,比直接去谷歌、百度查找的效率更高。

但问题是,豆包搜索后会要求你登录才能查看具体搜索结果。

命令行返回的结果,也只是搜索界面已有的内容,没有按我们要求的黏度计搜索内容输出。

我曾尝试在遇到登录框时等待用户手动登录,但代码有问题。Browser Use 没有提供诸如 new page 的方法,框架库不支持,不知道该怎么 await。

await agent.browser.start()
page = await agent.browser.new_page("https://www.doubao.com/chat/search")

再说说国内的平台——微信、小红书、飞书等,屏蔽得很严,不会让你通过浏览器就能爬取大量信息。而优质内容往往都集中在这几个平台上。目前,微信公众号的数据只能通过 ima 搜索,抖音数据只能通过豆包搜索,而这些平台又都需要电话验证码。

百度搜索

百度 AI 搜索也需要注册才能用。直接搜索信息流的话,结果不太准。

直接通过百度搜到的,大部分是广告。

Epilogue

整体来看,控制浏览器的 Agent 目前还不太成熟,可以再等等,看后面有没有专做人机验证的完善方案。原本以为像 Browser Use 这类 AI 控制电脑的 Agent,会像影刀 RPA 一样通过屏幕来操作 Chrome 浏览器,结果发现还是得用 Playwright,以及它自带的 Chromium 浏览器。

相关下载