PhoneBuddy快速摘要
PhoneBuddy是腾讯混元团队在2026年6月开源的手机智能体(Mobile Agent)训练框架,支持GUI界面理解、跨应用任务执行、多步骤任务规划与强化学习优化,适用于移动端AI助手、自动化测试、智能代理研究及手机操作自动化场景。
- 模型名称:PhoneBuddy
- 开发团队:由PhoneBuddy论文作者团队发布,面向移动智能体研究领域。
- 发布时间:2026年6月公开发布
- 模型定位:专注手机智能体训练与任务执行的AI模型体系
- 核心能力:支持GUI界面理解、任务规划、应用控制、跨应用操作与强化学习优化。
- 技术特点:采用真实手机环境与PhoneWorld模拟环境混合训练
- 性能表现:真实手机任务成功率达到45.33%,AndroidWorld基准测试成功率达到83.2%
- 多模态能力:支持视觉界面识别与文本推理协同处理,可理解按钮、菜单、输入框及页面状态。
- 开源情况:研究论文已公开发布,部分训练方法和实验框架可供学术研究参考。
- 使用要求:需结合Android真机或模拟器环境运行
- 适用场景:移动智能体开发、手机自动化测试、任务代理研究、企业流程自动化与智能助手训练。
- 价格信息:官方尚未公布商业化收费标准和API价格,当前以研究项目形式公开。

PhoneBuddy的核心优势
- 真实设备训练:PhoneBuddy同时利用真实手机应用与模拟环境进行训练,减少纯模拟环境带来的偏差。据2026年官方论文数据显示,混合强化学习方案使真实手机任务成功率提升至45.33%。
- 跨应用执行能力:模型能够在多个应用之间完成连续操作,例如搜索、打开应用、填写信息和提交任务。相比单应用自动化方案,其流程完整性更强,据官方实验结果显示跨场景适应能力明显提升。
- 可扩展训练体系:PhoneBuddy结合PhoneWorld环境构建大规模训练数据,支持持续扩充任务库。研究数据显示PhoneWorld已覆盖34个应用和16个领域,为模型泛化提供基础。
- 强化学习优化:系统采用监督微调与强化学习结合方式训练。在真实设备评测中,任务成功率由36.67%提升至45.33%,据官方测试数据表明强化学习贡献明显。
- 面向智能体时代:PhoneBuddy并非传统大语言模型,而是专门针对手机操作设计的Agent模型,能够理解界面状态并执行操作链条,适合未来移动端AI助手与自动化代理发展方向。
PhoneBuddy的核心功能
- 界面识别:模型能够读取手机屏幕中的按钮、输入框和导航结构。例如输入“预订酒店”,系统可自动定位搜索入口并执行后续操作,提高任务自动化程度。
- 任务规划:PhoneBuddy会将复杂目标拆解为多个步骤。例如查询机票时自动执行搜索、筛选、排序与结果整理等动作,从而减少人工干预。
- 应用控制:支持点击、滑动、输入文字等GUI操作方式。其推理过程不仅关注当前界面,还会结合历史步骤判断下一步行为。
- 跨应用协同:模型能够在多个应用间传递任务状态。例如从浏览器复制信息,再进入备忘录保存内容,实现连续工作流自动化。
- 强化学习反馈:系统通过任务完成情况自动获得奖励信号,不断优化决策路径。据AndroidWorld测试结果显示,相关训练方式使成功率达到83.2%。
PhoneBuddy的技术原理
- Agent架构:PhoneBuddy采用智能体架构而非单纯聊天模型,通过观察屏幕状态、规划行动和执行操作完成任务,属于典型手机Agent模型路线。
- 监督微调训练:训练初期利用真实操作轨迹进行监督学习,使模型掌握基础操作逻辑。例如学习点击按钮、输入文本和页面导航等常见行为。
- 强化学习机制:在完成监督学习后继续进行强化学习训练,根据任务完成情况获得奖励,提高复杂任务成功率和稳定性。
- PhoneWorld环境:研究团队构建PhoneWorld模拟环境,将真实GUI轨迹转化为可训练场景,支持大规模自动化训练与验证。
- 混合训练策略:模型同时利用真实应用环境和模拟环境进行训练,既保留真实性,又保证训练规模。这也是PhoneBuddy性能提升的重要原因。
PhoneBuddy与主流模型对比
| 对比维度 | PhoneBuddy-4B Real+Mock | GPT-5.4 | Gemini 3.1 Pro | 豆包Seed 2.0 |
|---|---|---|---|---|
| 模型定位 | 开源手机智能体(Phone Agent) | 通用Agent模型 | 多模态Agent模型 | 通用智能体模型 |
| 训练方式 | 真实应用RL + PhoneWorld模拟环境RL | 未公开 | 未公开 | 未公开 |
| 模型开放性 | 开放权重(4B/0.8B) | 闭源 | 闭源 | 闭源 |
| AndroidWorld成功率 | 83.2% | 70.7% | 80.2% | 77.2% |
| 单应用任务成功率 | 62.0% | 50.0% | 50.0% | 44.0% |
| 微信小程序任务成功率 | 56.0% | 40.0% | 58.0% | 60.0% |
| 综合平均成功率 | 54.8% | 49.8% | 59.1% | 51.4% |
| 跨应用任务成功率 | 18.0% | 未公布 | 未公布 | 未公布 |
| 适用场景 | 手机自动化、移动Agent研究 | 通用智能代理 | 多模态任务执行 | 复杂任务规划 |
据PhoneBuddy官方论文(2026)公布的数据,PhoneBuddy-4B Real+Mock在AndroidWorld基准测试中达到83.2%的任务成功率,高于GPT-5.4(70.7%)、Seed 2.0(77.2%)和Gemini 3.1 Pro(80.2%)。在单应用任务中,PhoneBuddy以62.0%的成功率位居第一,显示出较强的手机GUI理解与执行能力。其优势主要来自真实应用强化学习与PhoneWorld模拟环境联合训练,兼顾真实性和训练规模。不过,跨应用任务成功率仅为18.0%,仍是当前主要短板。整体来看,PhoneBuddy已在移动端Agent领域接近主流闭源模型水平,在手机自动化、应用测试和移动智能体研究场景中具备较强竞争力。
PhoneBuddy相关资源
- 项目官网:https://phonebuddyai.github.io/
- GitHub仓库:https://github.com/PhoneBuddyAI/phonebuddy
- HuggingFace模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
- 技术论文:https://phonebuddyai.github.io/assets/paper.pdf
如何使用PhoneBuddy
- 环境准备: 在官方仓库页下载PhoneBuddy-4B或PhoneBuddy-0.8B模型权重, 配置Python运行环境与推理依赖, 准备Android真机或模拟器作为执行环境。
- 数据收集: 采集真实App操作轨迹作为监督微调数据, 同时接入PhoneWorld生成可验证Mock任务。
- 模型训练: 先执行Shared SFT训练, 让模型学习统一操作格式, 再进行Real-only或Real+Mock强化学习训练。
- 任务部署: 将训练完成的PhoneBuddy模型接入PhoneHarness运行框架, 通过GUI、CLI或工具调用方式下发任务。
- 结果验证: 利用任务验证器检查最终执行结果, 避免仅完成页面跳转而未真正完成任务。
PhoneBuddy的局限性
- 复杂跨应用任务仍有挑战:据官方论文说明,长链路跨应用工作流依然是当前主要难点,任务长度增加后成功率下降明显。
- 训练成本较高:真实设备强化学习需要大量运行时间和设备资源,训练成本明显高于传统文本模型。
- 商业生态尚未成熟:目前PhoneBuddy主要定位研究项目,尚未形成完整商业API体系,企业级部署资料相对有限。
PhoneBuddy的典型应用场景
- 手机自动化助手:输入“帮我查询天气并记录”,系统自动完成搜索、整理和保存操作,提高效率。
- 企业流程自动化:输入客户资料后自动填写多个应用表单,减少重复录入工作量。
- 软件测试:自动执行大量手机应用测试流程,输出异常报告和执行结果。
- 移动端研究:用于研究Agent规划、强化学习和GUI理解能力,验证新算法效果。
- 个人任务管理:帮助用户完成日程创建、信息检索和数据整理等重复性任务。
PhoneBuddy常见问题
PhoneBuddy怎么用?
PhoneBuddy主要面向研究与开发场景使用,需要部署在Android设备或模拟环境中,通过任务配置和训练框架实现自动化操作,建议先阅读官方论文了解架构设计。
PhoneBuddy免费吗?
目前公开信息显示论文和研究成果已开放获取,但官方尚未公布统一商业授权方案,具体开源范围需以项目后续发布信息为准。
PhoneBuddy和GPT-5.4、Gemini 3.1 Pro哪个好?
据PhoneBuddy官方论文2026年测试数据,PhoneBuddy-4B Real+Mock在AndroidWorld基准测试中的成功率达到83.2%,高于GPT-5.4的70.7%和Gemini 3.1 Pro的80.2%。对于手机自动化、GUI操作和移动Agent研究场景,PhoneBuddy优势更明显;而GPT-5.4和Gemini 3.1 Pro在通用推理和跨领域任务方面覆盖范围更广。
PhoneBuddy支持API吗?
截至2026年6月公开资料,官方重点发布的是训练框架和研究成果,尚未公布成熟商业API服务体系。
PhoneBuddy支持实时手机控制吗?
支持基于GUI的手机操作控制,但复杂跨应用长流程仍存在挑战。官方研究指出跨应用任务仍是后续重点优化方向。
浙公网安备33010202004812号