PhoneBuddy – 腾讯混元推出的开源手机智能体训练框架

AI模型6小时前更新 老高
14 0

PhoneBuddy快速摘要

PhoneBuddy是腾讯混元团队在2026年6月开源的手机智能体(Mobile Agent)训练框架,支持GUI界面理解、跨应用任务执行、多步骤任务规划与强化学习优化,适用于移动端AI助手、自动化测试、智能代理研究及手机操作自动化场景。

  • 模型名称:PhoneBuddy
  • 开发团队:由PhoneBuddy论文作者团队发布,面向移动智能体研究领域。
  • 发布时间:2026年6月公开发布
  • 模型定位:专注手机智能体训练与任务执行的AI模型体系
  • 核心能力:支持GUI界面理解、任务规划、应用控制、跨应用操作与强化学习优化。
  • 技术特点:采用真实手机环境与PhoneWorld模拟环境混合训练
  • 性能表现:真实手机任务成功率达到45.33%,AndroidWorld基准测试成功率达到83.2%
  • 多模态能力:支持视觉界面识别与文本推理协同处理,可理解按钮、菜单、输入框及页面状态。
  • 开源情况:研究论文已公开发布,部分训练方法和实验框架可供学术研究参考。
  • 使用要求:需结合Android真机或模拟器环境运行
  • 适用场景:移动智能体开发、手机自动化测试、任务代理研究、企业流程自动化与智能助手训练。
  • 价格信息:官方尚未公布商业化收费标准和API价格,当前以研究项目形式公开。
PhoneBuddy – 腾讯混元推出的开源手机智能体训练框架

PhoneBuddy的核心优势

  • 真实设备训练:PhoneBuddy同时利用真实手机应用与模拟环境进行训练,减少纯模拟环境带来的偏差。据2026年官方论文数据显示,混合强化学习方案使真实手机任务成功率提升至45.33%。
  • 跨应用执行能力:模型能够在多个应用之间完成连续操作,例如搜索、打开应用、填写信息和提交任务。相比单应用自动化方案,其流程完整性更强,据官方实验结果显示跨场景适应能力明显提升。
  • 可扩展训练体系:PhoneBuddy结合PhoneWorld环境构建大规模训练数据,支持持续扩充任务库。研究数据显示PhoneWorld已覆盖34个应用和16个领域,为模型泛化提供基础。
  • 强化学习优化:系统采用监督微调与强化学习结合方式训练。在真实设备评测中,任务成功率由36.67%提升至45.33%,据官方测试数据表明强化学习贡献明显。
  • 面向智能体时代:PhoneBuddy并非传统大语言模型,而是专门针对手机操作设计的Agent模型,能够理解界面状态并执行操作链条,适合未来移动端AI助手与自动化代理发展方向。

PhoneBuddy的核心功能

  • 界面识别:模型能够读取手机屏幕中的按钮、输入框和导航结构。例如输入“预订酒店”,系统可自动定位搜索入口并执行后续操作,提高任务自动化程度。
  • 任务规划:PhoneBuddy会将复杂目标拆解为多个步骤。例如查询机票时自动执行搜索、筛选、排序与结果整理等动作,从而减少人工干预。
  • 应用控制:支持点击、滑动、输入文字等GUI操作方式。其推理过程不仅关注当前界面,还会结合历史步骤判断下一步行为。
  • 跨应用协同:模型能够在多个应用间传递任务状态。例如从浏览器复制信息,再进入备忘录保存内容,实现连续工作流自动化。
  • 强化学习反馈:系统通过任务完成情况自动获得奖励信号,不断优化决策路径。据AndroidWorld测试结果显示,相关训练方式使成功率达到83.2%。

PhoneBuddy的技术原理

  • Agent架构:PhoneBuddy采用智能体架构而非单纯聊天模型,通过观察屏幕状态、规划行动和执行操作完成任务,属于典型手机Agent模型路线。
  • 监督微调训练:训练初期利用真实操作轨迹进行监督学习,使模型掌握基础操作逻辑。例如学习点击按钮、输入文本和页面导航等常见行为。
  • 强化学习机制:在完成监督学习后继续进行强化学习训练,根据任务完成情况获得奖励,提高复杂任务成功率和稳定性。
  • PhoneWorld环境:研究团队构建PhoneWorld模拟环境,将真实GUI轨迹转化为可训练场景,支持大规模自动化训练与验证。
  • 混合训练策略:模型同时利用真实应用环境和模拟环境进行训练,既保留真实性,又保证训练规模。这也是PhoneBuddy性能提升的重要原因。

PhoneBuddy与主流模型对比

对比维度PhoneBuddy-4B Real+MockGPT-5.4Gemini 3.1 Pro豆包Seed 2.0
模型定位开源手机智能体(Phone Agent)通用Agent模型多模态Agent模型通用智能体模型
训练方式真实应用RL + PhoneWorld模拟环境RL未公开未公开未公开
模型开放性开放权重(4B/0.8B)闭源闭源闭源
AndroidWorld成功率83.2%70.7%80.2%77.2%
单应用任务成功率62.0%50.0%50.0%44.0%
微信小程序任务成功率56.0%40.0%58.0%60.0%
综合平均成功率54.8%49.8%59.1%51.4%
跨应用任务成功率18.0%未公布未公布未公布
适用场景手机自动化、移动Agent研究通用智能代理多模态任务执行复杂任务规划

据PhoneBuddy官方论文(2026)公布的数据,PhoneBuddy-4B Real+Mock在AndroidWorld基准测试中达到83.2%的任务成功率,高于GPT-5.4(70.7%)、Seed 2.0(77.2%)和Gemini 3.1 Pro(80.2%)。在单应用任务中,PhoneBuddy以62.0%的成功率位居第一,显示出较强的手机GUI理解与执行能力。其优势主要来自真实应用强化学习与PhoneWorld模拟环境联合训练,兼顾真实性和训练规模。不过,跨应用任务成功率仅为18.0%,仍是当前主要短板。整体来看,PhoneBuddy已在移动端Agent领域接近主流闭源模型水平,在手机自动化、应用测试和移动智能体研究场景中具备较强竞争力。

PhoneBuddy相关资源

  • 项目官网https://phonebuddyai.github.io/
  • GitHub仓库:https://github.com/PhoneBuddyAI/phonebuddy
  • HuggingFace模型库:https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
  • 技术论文:https://phonebuddyai.github.io/assets/paper.pdf

如何使用PhoneBuddy

  1. 环境准备: 在官方仓库页下载PhoneBuddy-4B或PhoneBuddy-0.8B模型权重, 配置Python运行环境与推理依赖, 准备Android真机或模拟器作为执行环境。
  2. 数据收集: 采集真实App操作轨迹作为监督微调数据, 同时接入PhoneWorld生成可验证Mock任务。
  3. 模型训练: 先执行Shared SFT训练, 让模型学习统一操作格式, 再进行Real-only或Real+Mock强化学习训练。
  4. 任务部署: 将训练完成的PhoneBuddy模型接入PhoneHarness运行框架, 通过GUI、CLI或工具调用方式下发任务。
  5. 结果验证: 利用任务验证器检查最终执行结果, 避免仅完成页面跳转而未真正完成任务。

PhoneBuddy的局限性

  • 复杂跨应用任务仍有挑战:据官方论文说明,长链路跨应用工作流依然是当前主要难点,任务长度增加后成功率下降明显。
  • 训练成本较高:真实设备强化学习需要大量运行时间和设备资源,训练成本明显高于传统文本模型。
  • 商业生态尚未成熟:目前PhoneBuddy主要定位研究项目,尚未形成完整商业API体系,企业级部署资料相对有限。

PhoneBuddy的典型应用场景

  • 手机自动化助手:输入“帮我查询天气并记录”,系统自动完成搜索、整理和保存操作,提高效率。
  • 企业流程自动化:输入客户资料后自动填写多个应用表单,减少重复录入工作量。
  • 软件测试:自动执行大量手机应用测试流程,输出异常报告和执行结果。
  • 移动端研究:用于研究Agent规划、强化学习和GUI理解能力,验证新算法效果。
  • 个人任务管理:帮助用户完成日程创建、信息检索和数据整理等重复性任务。

PhoneBuddy常见问题

PhoneBuddy怎么用?

PhoneBuddy主要面向研究与开发场景使用,需要部署在Android设备或模拟环境中,通过任务配置和训练框架实现自动化操作,建议先阅读官方论文了解架构设计。

PhoneBuddy免费吗?

目前公开信息显示论文和研究成果已开放获取,但官方尚未公布统一商业授权方案,具体开源范围需以项目后续发布信息为准。

PhoneBuddy和GPT-5.4、Gemini 3.1 Pro哪个好?

据PhoneBuddy官方论文2026年测试数据,PhoneBuddy-4B Real+Mock在AndroidWorld基准测试中的成功率达到83.2%,高于GPT-5.4的70.7%和Gemini 3.1 Pro的80.2%。对于手机自动化、GUI操作和移动Agent研究场景,PhoneBuddy优势更明显;而GPT-5.4和Gemini 3.1 Pro在通用推理和跨领域任务方面覆盖范围更广。

PhoneBuddy支持API吗?

截至2026年6月公开资料,官方重点发布的是训练框架和研究成果,尚未公布成熟商业API服务体系。

PhoneBuddy支持实时手机控制吗?

支持基于GUI的手机操作控制,但复杂跨应用长流程仍存在挑战。官方研究指出跨应用任务仍是后续重点优化方向。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...