PhoneBuddy – 腾讯混元推出的开源手机智能体训练框架

14 0 1

PhoneBuddy快速摘要

PhoneBuddy是腾讯混元团队在2026年6月开源的手机智能体（Mobile Agent）训练框架，支持GUI界面理解、跨应用任务执行、多步骤任务规划与强化学习优化，适用于移动端AI助手、自动化测试、智能代理研究及手机操作自动化场景。

模型名称：PhoneBuddy
开发团队：由PhoneBuddy论文作者团队发布，面向移动智能体研究领域。
发布时间：2026年6月公开发布
模型定位：专注手机智能体训练与任务执行的AI模型体系
核心能力：支持GUI界面理解、任务规划、应用控制、跨应用操作与强化学习优化。
技术特点：采用真实手机环境与PhoneWorld模拟环境混合训练
性能表现：真实手机任务成功率达到45.33%，AndroidWorld基准测试成功率达到83.2%
多模态能力：支持视觉界面识别与文本推理协同处理，可理解按钮、菜单、输入框及页面状态。
开源情况：研究论文已公开发布，部分训练方法和实验框架可供学术研究参考。
使用要求：需结合Android真机或模拟器环境运行
适用场景：移动智能体开发、手机自动化测试、任务代理研究、企业流程自动化与智能助手训练。
价格信息：官方尚未公布商业化收费标准和API价格，当前以研究项目形式公开。

PhoneBuddy的核心优势

真实设备训练：PhoneBuddy同时利用真实手机应用与模拟环境进行训练，减少纯模拟环境带来的偏差。据2026年官方论文数据显示，混合强化学习方案使真实手机任务成功率提升至45.33%。
跨应用执行能力：模型能够在多个应用之间完成连续操作，例如搜索、打开应用、填写信息和提交任务。相比单应用自动化方案，其流程完整性更强，据官方实验结果显示跨场景适应能力明显提升。
可扩展训练体系：PhoneBuddy结合PhoneWorld环境构建大规模训练数据，支持持续扩充任务库。研究数据显示PhoneWorld已覆盖34个应用和16个领域，为模型泛化提供基础。
强化学习优化：系统采用监督微调与强化学习结合方式训练。在真实设备评测中，任务成功率由36.67%提升至45.33%，据官方测试数据表明强化学习贡献明显。
面向智能体时代：PhoneBuddy并非传统大语言模型，而是专门针对手机操作设计的Agent模型，能够理解界面状态并执行操作链条，适合未来移动端AI助手与自动化代理发展方向。

PhoneBuddy的核心功能

界面识别：模型能够读取手机屏幕中的按钮、输入框和导航结构。例如输入“预订酒店”，系统可自动定位搜索入口并执行后续操作，提高任务自动化程度。
任务规划：PhoneBuddy会将复杂目标拆解为多个步骤。例如查询机票时自动执行搜索、筛选、排序与结果整理等动作，从而减少人工干预。
应用控制：支持点击、滑动、输入文字等GUI操作方式。其推理过程不仅关注当前界面，还会结合历史步骤判断下一步行为。
跨应用协同：模型能够在多个应用间传递任务状态。例如从浏览器复制信息，再进入备忘录保存内容，实现连续工作流自动化。
强化学习反馈：系统通过任务完成情况自动获得奖励信号，不断优化决策路径。据AndroidWorld测试结果显示，相关训练方式使成功率达到83.2%。

PhoneBuddy的技术原理

Agent架构：PhoneBuddy采用智能体架构而非单纯聊天模型，通过观察屏幕状态、规划行动和执行操作完成任务，属于典型手机Agent模型路线。
监督微调训练：训练初期利用真实操作轨迹进行监督学习，使模型掌握基础操作逻辑。例如学习点击按钮、输入文本和页面导航等常见行为。
强化学习机制：在完成监督学习后继续进行强化学习训练，根据任务完成情况获得奖励，提高复杂任务成功率和稳定性。
PhoneWorld环境：研究团队构建PhoneWorld模拟环境，将真实GUI轨迹转化为可训练场景，支持大规模自动化训练与验证。
混合训练策略：模型同时利用真实应用环境和模拟环境进行训练，既保留真实性，又保证训练规模。这也是PhoneBuddy性能提升的重要原因。

PhoneBuddy与主流模型对比

对比维度	PhoneBuddy-4B Real+Mock	GPT-5.4	Gemini 3.1 Pro	豆包Seed 2.0
模型定位	开源手机智能体（Phone Agent）	通用Agent模型	多模态Agent模型	通用智能体模型
训练方式	真实应用RL + PhoneWorld模拟环境RL	未公开	未公开	未公开
模型开放性	开放权重（4B/0.8B）	闭源	闭源	闭源
AndroidWorld成功率	83.2%	70.7%	80.2%	77.2%
单应用任务成功率	62.0%	50.0%	50.0%	44.0%
微信小程序任务成功率	56.0%	40.0%	58.0%	60.0%
综合平均成功率	54.8%	49.8%	59.1%	51.4%
跨应用任务成功率	18.0%	未公布	未公布	未公布
适用场景	手机自动化、移动Agent研究	通用智能代理	多模态任务执行	复杂任务规划

据PhoneBuddy官方论文（2026）公布的数据，PhoneBuddy-4B Real+Mock在AndroidWorld基准测试中达到83.2%的任务成功率，高于GPT-5.4（70.7%）、Seed 2.0（77.2%）和Gemini 3.1 Pro（80.2%）。在单应用任务中，PhoneBuddy以62.0%的成功率位居第一，显示出较强的手机GUI理解与执行能力。其优势主要来自真实应用强化学习与PhoneWorld模拟环境联合训练，兼顾真实性和训练规模。不过，跨应用任务成功率仅为18.0%，仍是当前主要短板。整体来看，PhoneBuddy已在移动端Agent领域接近主流闭源模型水平，在手机自动化、应用测试和移动智能体研究场景中具备较强竞争力。

PhoneBuddy相关资源

项目官网：https://phonebuddyai.github.io/
GitHub仓库：https://github.com/PhoneBuddyAI/phonebuddy
HuggingFace模型库：https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B
技术论文：https://phonebuddyai.github.io/assets/paper.pdf

如何使用PhoneBuddy

环境准备： 在官方仓库页下载PhoneBuddy-4B或PhoneBuddy-0.8B模型权重，配置Python运行环境与推理依赖，准备Android真机或模拟器作为执行环境。
数据收集： 采集真实App操作轨迹作为监督微调数据，同时接入PhoneWorld生成可验证Mock任务。
模型训练： 先执行Shared SFT训练，让模型学习统一操作格式，再进行Real-only或Real+Mock强化学习训练。
任务部署： 将训练完成的PhoneBuddy模型接入PhoneHarness运行框架，通过GUI、CLI或工具调用方式下发任务。
结果验证： 利用任务验证器检查最终执行结果，避免仅完成页面跳转而未真正完成任务。

PhoneBuddy的局限性

复杂跨应用任务仍有挑战：据官方论文说明，长链路跨应用工作流依然是当前主要难点，任务长度增加后成功率下降明显。
训练成本较高：真实设备强化学习需要大量运行时间和设备资源，训练成本明显高于传统文本模型。
商业生态尚未成熟：目前PhoneBuddy主要定位研究项目，尚未形成完整商业API体系，企业级部署资料相对有限。

PhoneBuddy的典型应用场景

手机自动化助手：输入“帮我查询天气并记录”，系统自动完成搜索、整理和保存操作，提高效率。
企业流程自动化：输入客户资料后自动填写多个应用表单，减少重复录入工作量。
软件测试：自动执行大量手机应用测试流程，输出异常报告和执行结果。
移动端研究：用于研究Agent规划、强化学习和GUI理解能力，验证新算法效果。
个人任务管理：帮助用户完成日程创建、信息检索和数据整理等重复性任务。

PhoneBuddy常见问题

PhoneBuddy怎么用？

PhoneBuddy主要面向研究与开发场景使用，需要部署在Android设备或模拟环境中，通过任务配置和训练框架实现自动化操作，建议先阅读官方论文了解架构设计。

PhoneBuddy免费吗？

目前公开信息显示论文和研究成果已开放获取，但官方尚未公布统一商业授权方案，具体开源范围需以项目后续发布信息为准。

PhoneBuddy和GPT-5.4、Gemini 3.1 Pro哪个好？

据PhoneBuddy官方论文2026年测试数据，PhoneBuddy-4B Real+Mock在AndroidWorld基准测试中的成功率达到83.2%，高于GPT-5.4的70.7%和Gemini 3.1 Pro的80.2%。对于手机自动化、GUI操作和移动Agent研究场景，PhoneBuddy优势更明显；而GPT-5.4和Gemini 3.1 Pro在通用推理和跨领域任务方面覆盖范围更广。

PhoneBuddy支持API吗？

截至2026年6月公开资料，官方重点发布的是训练框架和研究成果，尚未公布成熟商业API服务体系。

PhoneBuddy支持实时手机控制吗？

支持基于GUI的手机操作控制，但复杂跨应用长流程仍存在挑战。官方研究指出跨应用任务仍是后续重点优化方向。

# AI模型 # 手机智能体

本站文章版权归AI工具箱所有，未经允许禁止任何形式的转载。

Ring-2.6-1T – 蚂蚁推出的Agent万亿推理模型

老高

372 1

PawBench – 阿里通义实验室推出的模型与Harness联合评测基准

老高

389 1

Gemini 3.1 Flash-Lite – Google推出的高性能轻量级多模态推理模型

老高

328 0

Mistral OCR 4 – Mistral AI推出的文档理解与OCR解析模型

老高

14 1

GPT-image-2 – OpenAI推出的多模态图像生成与视觉推理模型

老高

656 1

Qwen3.5-LiveTranslate – 阿里推出的实时多语言语音翻译模型

老高

443 1

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...