首页 > 教程攻略 > ai资讯 >PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

来源:互联网 时间:2026-06-27 14:28:32

PhoneBuddy是什么

先说一个核心判断:手机端的AI Agent,终于有了一个真正面向真实场景的开源方案。PhoneBuddy是腾讯混元团队最新开源的4B参数手机Agent模型,它的核心目标非常明确——研究如何在真实手机环境中训练出可用的AI Agent。有意思的是,团队并没有把全部赌注押在堆参数上,而是设计了一套“真实App + Mock App混合RL训练”的方案。

效果如何?在150个真机评测任务中,PhoneBuddy在单App和微信小程序上的任务成功率,已经超过了GPT-5.4。AndroidWorld的成绩更是达到83.2%。这传递了一个清晰信号:小模型,只要环境设计得当,同样具备极强的竞争力。

PhoneBuddy的主要功能

  • 手机GUI理解与操作

    :能准确识别手机屏幕截图,并预测下一步该执行什么操作——点击、滑动还是输入文字。
  • 单App任务执行

    :在单个应用内独立完成搜索、修改设置、创建内容等操作。
  • 跨App信息流转

    :能打通多个应用之间的数据壁垒,完成需要协作的复杂任务。
  • 微信小程序操作

    :覆盖微信小程序生态,支持搜索、预订、查询等场景。
  • 真实环境任务验证

    :不仅仅是“看起来完成了”,而是会验证任务是否真正被执行——比如消息是否真的发出,文档是否保存成功。

PhoneBuddy的技术原理

两阶段训练架构

团队采用Shared SFT,让模型同时学习真实App和Mock App的操作轨迹,先建立一套统一的手机操作基础能力。进入RL阶段后,再对比“仅真实环境训练”和“真实+Mock混合训练”两种方案的效果差异。

Real+Mock混合RL

真实App的好处是能提供真实的业务逻辑和账号状态,但也伴随副作用。PhoneWorld的Mock App则提供了另一个关键能力——可重置、可验证、可规模化。两者互补,巧妙解决了“真实但难训练”与“可控但不真实”这对核心矛盾。

PhoneWorld环境构建

这个环境不是凭空造出来的。团队从真实GUI使用结构中,重建了可运行的Android Mock App,保留了页面结构、跳转关系、可交互元素和任务验证器。正因如此,RL阶段才能获得稳定的reward信号。

任务级验证机制

验证逻辑非常直接:检查任务的最终状态。比如酒店预算是否真的被筛选好,请假签的内容是否被正确粘贴。保证Agent是真的完成了用户的目标,而不是“假装完成”。

如何使用PhoneBuddy

  • 环境准备

    :下载并配置PhoneBuddy-4B模型权重与依赖环境,准备一台Android真机或模拟器作为执行层。
  • 数据收集

    :采集真实App的操作轨迹用于SFT阶段训练;同时接入PhoneWorld Mock App获取可验证的交互数据。
  • 模型训练

    :先执行Shared SFT训练,让模型掌握统一的操作格式;再选择Real-only或Real+Mock环境进行RL微调。
  • 任务部署

    :将训练好的模型接入手机执行层,通过GUI或CLI方式下发任务指令。
  • 结果验证

    :利用任务验证器检查最终执行状态,确认任务是否真正完成——而不是仅仅看起来“页面对了”。

PhoneBuddy的核心优势

  • 真实场景导向

    :训练直接面向真实手机和真实App,而不是为了刷离线Benchmark分数。
  • 小模型高性能

    :仅4B参数,在单App和微信小程序任务上超过GPT-5.4。这说明了环境设计的价值远比参数堆砌更重要。
  • 可验证的RL训练

    :PhoneWorld Mock环境提供了稳定的reward,让RL训练具备规模化扩展的潜力。
  • 完整技术栈开源

    :从环境、训练、执行到安全隐私评估,所有内容全部公开。
  • 任务完成度保障

    :通过约束跟随和信息转移验证,确保Agent真正执行了用户意图。

PhoneBuddy的项目地址

  • 项目官网

    :https://phonebuddyai.github.io/
  • GitHub仓库

    :https://github.com/PhoneBuddyAI/phonebuddy
  • HuggingFace模型库

    :https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
  • 技术论文

    :https://phonebuddyai.github.io/assets/paper.pdf

PhoneBuddy的同类竞品对比

以下表格直观对比了PhoneBuddy-4B-Real+Mock与GPT-5.4的表现差异:

对比维度PhoneBuddy-4B-Real+MockGPT-5.4
模型规模4B(开源)闭源大模型(估计数百B级)
训练方式Real+Mock 混合RL未公开具体手机Agent训练方案
单App成功率62.0%50.0%
微信小程序成功率56.0%40.0%
AndroidWorld83.2%70.7%
跨App成功率18.0%未明确列出(文章未提)
平均成功率54.8%48.2%
环境可控性支持Mock环境重置与验证依赖真实API/环境

PhoneBuddy的应用场景

  • 智能手机助手

    :用户通过自然语言指令让Agent完成查快递、订酒店、发消息等日常操作。
  • 自动化测试

    :在真实App中自动执行UI测试流程,验证功能完整性和业务逻辑。
  • 无障碍辅助

    :帮助视障或操作不便的用户,自动完成复杂的手机多步操作。
  • 跨应用工作流

    :自动从邮件提取信息填入表格,或在多个办公App间传递数据。
  • 小程序服务自动化

    :在微信小程序内完成查询、预约、下单等无需安装原生App的任务。