PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型
来源:互联网
时间:2026-06-27 14:28:32
PhoneBuddy是什么
先说一个核心判断:手机端的AI Agent,终于有了一个真正面向真实场景的开源方案。PhoneBuddy是腾讯混元团队最新开源的4B参数手机Agent模型,它的核心目标非常明确——研究如何在真实手机环境中训练出可用的AI Agent。有意思的是,团队并没有把全部赌注押在堆参数上,而是设计了一套“真实App + Mock App混合RL训练”的方案。
效果如何?在150个真机评测任务中,PhoneBuddy在单App和微信小程序上的任务成功率,已经超过了GPT-5.4。AndroidWorld的成绩更是达到83.2%。这传递了一个清晰信号:小模型,只要环境设计得当,同样具备极强的竞争力。
PhoneBuddy的主要功能
- :能准确识别手机屏幕截图,并预测下一步该执行什么操作——点击、滑动还是输入文字。
手机GUI理解与操作
- :在单个应用内独立完成搜索、修改设置、创建内容等操作。
单App任务执行
- :能打通多个应用之间的数据壁垒,完成需要协作的复杂任务。
跨App信息流转
- :覆盖微信小程序生态,支持搜索、预订、查询等场景。
微信小程序操作
- :不仅仅是“看起来完成了”,而是会验证任务是否真正被执行——比如消息是否真的发出,文档是否保存成功。
真实环境任务验证
PhoneBuddy的技术原理
两阶段训练架构
团队采用Shared SFT,让模型同时学习真实App和Mock App的操作轨迹,先建立一套统一的手机操作基础能力。进入RL阶段后,再对比“仅真实环境训练”和“真实+Mock混合训练”两种方案的效果差异。
Real+Mock混合RL
真实App的好处是能提供真实的业务逻辑和账号状态,但也伴随副作用。PhoneWorld的Mock App则提供了另一个关键能力——可重置、可验证、可规模化。两者互补,巧妙解决了“真实但难训练”与“可控但不真实”这对核心矛盾。
PhoneWorld环境构建
这个环境不是凭空造出来的。团队从真实GUI使用结构中,重建了可运行的Android Mock App,保留了页面结构、跳转关系、可交互元素和任务验证器。正因如此,RL阶段才能获得稳定的reward信号。
任务级验证机制
验证逻辑非常直接:检查任务的最终状态。比如酒店预算是否真的被筛选好,请假签的内容是否被正确粘贴。保证Agent是真的完成了用户的目标,而不是“假装完成”。
如何使用PhoneBuddy
- :下载并配置PhoneBuddy-4B模型权重与依赖环境,准备一台Android真机或模拟器作为执行层。
环境准备
- :采集真实App的操作轨迹用于SFT阶段训练;同时接入PhoneWorld Mock App获取可验证的交互数据。
数据收集
- :先执行Shared SFT训练,让模型掌握统一的操作格式;再选择Real-only或Real+Mock环境进行RL微调。
模型训练
- :将训练好的模型接入手机执行层,通过GUI或CLI方式下发任务指令。
任务部署
- :利用任务验证器检查最终执行状态,确认任务是否真正完成——而不是仅仅看起来“页面对了”。
结果验证
PhoneBuddy的核心优势
- :训练直接面向真实手机和真实App,而不是为了刷离线Benchmark分数。
真实场景导向
- :仅4B参数,在单App和微信小程序任务上超过GPT-5.4。这说明了环境设计的价值远比参数堆砌更重要。
小模型高性能
- :PhoneWorld Mock环境提供了稳定的reward,让RL训练具备规模化扩展的潜力。
可验证的RL训练
- :从环境、训练、执行到安全隐私评估,所有内容全部公开。
完整技术栈开源
- :通过约束跟随和信息转移验证,确保Agent真正执行了用户意图。
任务完成度保障
PhoneBuddy的项目地址
- :https://phonebuddyai.github.io/
项目官网
- :https://github.com/PhoneBuddyAI/phonebuddy
GitHub仓库
- :https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
HuggingFace模型库
- :https://phonebuddyai.github.io/assets/paper.pdf
技术论文
PhoneBuddy的同类竞品对比
以下表格直观对比了PhoneBuddy-4B-Real+Mock与GPT-5.4的表现差异:
| 对比维度 | PhoneBuddy-4B-Real+Mock | GPT-5.4 |
|---|---|---|
| 模型规模 | 4B(开源) | 闭源大模型(估计数百B级) |
| 训练方式 | Real+Mock 混合RL | 未公开具体手机Agent训练方案 |
| 单App成功率 | 62.0% | 50.0% |
| 微信小程序成功率 | 56.0% | 40.0% |
| AndroidWorld | 83.2% | 70.7% |
| 跨App成功率 | 18.0% | 未明确列出(文章未提) |
| 平均成功率 | 54.8% | 48.2% |
| 环境可控性 | 支持Mock环境重置与验证 | 依赖真实API/环境 |
PhoneBuddy的应用场景
- :用户通过自然语言指令让Agent完成查快递、订酒店、发消息等日常操作。
智能手机助手
- :在真实App中自动执行UI测试流程,验证功能完整性和业务逻辑。
自动化测试
- :帮助视障或操作不便的用户,自动完成复杂的手机多步操作。
无障碍辅助
- :自动从邮件提取信息填入表格,或在多个办公App间传递数据。
跨应用工作流
- :在微信小程序内完成查询、预约、下单等无需安装原生App的任务。
小程序服务自动化