首页 > 教程攻略 > ai资讯 >PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

来源：互联网时间：2026-06-27 14:28:32

PhoneBuddy是什么

先说一个核心判断：手机端的AI Agent，终于有了一个真正面向真实场景的开源方案。PhoneBuddy是腾讯混元团队最新开源的4B参数手机Agent模型，它的核心目标非常明确——研究如何在真实手机环境中训练出可用的AI Agent。有意思的是，团队并没有把全部赌注押在堆参数上，而是设计了一套“真实App + Mock App混合RL训练”的方案。

效果如何？在150个真机评测任务中，PhoneBuddy在单App和微信小程序上的任务成功率，已经超过了GPT-5.4。AndroidWorld的成绩更是达到83.2%。这传递了一个清晰信号：小模型，只要环境设计得当，同样具备极强的竞争力。

PhoneBuddy的主要功能

手机GUI理解与操作
：能准确识别手机屏幕截图，并预测下一步该执行什么操作——点击、滑动还是输入文字。
单App任务执行
：在单个应用内独立完成搜索、修改设置、创建内容等操作。
跨App信息流转
：能打通多个应用之间的数据壁垒，完成需要协作的复杂任务。
微信小程序操作
：覆盖微信小程序生态，支持搜索、预订、查询等场景。
真实环境任务验证
：不仅仅是“看起来完成了”，而是会验证任务是否真正被执行——比如消息是否真的发出，文档是否保存成功。

PhoneBuddy的技术原理

两阶段训练架构

团队采用Shared SFT，让模型同时学习真实App和Mock App的操作轨迹，先建立一套统一的手机操作基础能力。进入RL阶段后，再对比“仅真实环境训练”和“真实+Mock混合训练”两种方案的效果差异。

Real+Mock混合RL

真实App的好处是能提供真实的业务逻辑和账号状态，但也伴随副作用。PhoneWorld的Mock App则提供了另一个关键能力——可重置、可验证、可规模化。两者互补，巧妙解决了“真实但难训练”与“可控但不真实”这对核心矛盾。

PhoneWorld环境构建

这个环境不是凭空造出来的。团队从真实GUI使用结构中，重建了可运行的Android Mock App，保留了页面结构、跳转关系、可交互元素和任务验证器。正因如此，RL阶段才能获得稳定的reward信号。

任务级验证机制

验证逻辑非常直接：检查任务的最终状态。比如酒店预算是否真的被筛选好，请假签的内容是否被正确粘贴。保证Agent是真的完成了用户的目标，而不是“假装完成”。

如何使用PhoneBuddy

环境准备
：下载并配置PhoneBuddy-4B模型权重与依赖环境，准备一台Android真机或模拟器作为执行层。
数据收集
：采集真实App的操作轨迹用于SFT阶段训练；同时接入PhoneWorld Mock App获取可验证的交互数据。
模型训练
：先执行Shared SFT训练，让模型掌握统一的操作格式；再选择Real-only或Real+Mock环境进行RL微调。
任务部署
：将训练好的模型接入手机执行层，通过GUI或CLI方式下发任务指令。
结果验证
：利用任务验证器检查最终执行状态，确认任务是否真正完成——而不是仅仅看起来“页面对了”。

PhoneBuddy的核心优势

真实场景导向
：训练直接面向真实手机和真实App，而不是为了刷离线Benchmark分数。
小模型高性能
：仅4B参数，在单App和微信小程序任务上超过GPT-5.4。这说明了环境设计的价值远比参数堆砌更重要。
可验证的RL训练
：PhoneWorld Mock环境提供了稳定的reward，让RL训练具备规模化扩展的潜力。
完整技术栈开源
：从环境、训练、执行到安全隐私评估，所有内容全部公开。
任务完成度保障
：通过约束跟随和信息转移验证，确保Agent真正执行了用户意图。

PhoneBuddy的项目地址

项目官网
：https://phonebuddyai.github.io/
GitHub仓库
：https://github.com/PhoneBuddyAI/phonebuddy
HuggingFace模型库
：https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
技术论文
：https://phonebuddyai.github.io/assets/paper.pdf

PhoneBuddy的同类竞品对比

以下表格直观对比了PhoneBuddy-4B-Real+Mock与GPT-5.4的表现差异：

对比维度	PhoneBuddy-4B-Real+Mock	GPT-5.4
模型规模	4B（开源）	闭源大模型（估计数百B级）
训练方式	Real+Mock 混合RL	未公开具体手机Agent训练方案
单App成功率	62.0%	50.0%
微信小程序成功率	56.0%	40.0%
AndroidWorld	83.2%	70.7%
跨App成功率	18.0%	未明确列出（文章未提）
平均成功率	54.8%	48.2%
环境可控性	支持Mock环境重置与验证	依赖真实API/环境

PhoneBuddy的应用场景

智能手机助手
：用户通过自然语言指令让Agent完成查快递、订酒店、发消息等日常操作。
自动化测试
：在真实App中自动执行UI测试流程，验证功能完整性和业务逻辑。
无障碍辅助
：帮助视障或操作不便的用户，自动完成复杂的手机多步操作。
跨应用工作流
：自动从邮件提取信息填入表格，或在多个办公App间传递数据。
小程序服务自动化
：在微信小程序内完成查询、预约、下单等无需安装原生App的任务。

PhoneBuddy - 腾讯混元开源的 4B 参数手机 Agent 模型

PhoneBuddy是什么

PhoneBuddy的主要功能

手机GUI理解与操作

单App任务执行

跨App信息流转

微信小程序操作

真实环境任务验证

PhoneBuddy的技术原理

两阶段训练架构

Real+Mock混合RL

PhoneWorld环境构建

任务级验证机制

如何使用PhoneBuddy

环境准备

数据收集

模型训练

任务部署

结果验证

PhoneBuddy的核心优势

真实场景导向

小模型高性能

可验证的RL训练

完整技术栈开源

任务完成度保障

PhoneBuddy的项目地址

项目官网

GitHub仓库

HuggingFace模型库

技术论文

PhoneBuddy的同类竞品对比

PhoneBuddy的应用场景

智能手机助手

自动化测试

无障碍辅助

跨应用工作流

小程序服务自动化

相关阅读

相关下载