GPT-5.4是什么?
GPT-5.4是OpenAI于2026年3月发布的GPT-5系列大语言模型,定位为面向专业工作的AI模型,重点提升推理能力、编程能力及任务执行能力。该模型将长上下文处理、工具调用、计算机操作和网页检索能力整合在统一架构中,支持约100万Token上下文长度,可处理复杂任务与多步骤业务流程。 在多模态能力方面,GPT-5.4支持文本与图像输入,可通过截图理解界面信息,并模拟鼠标和键盘完成跨应用操作。模型同时提供API接口,便于开发者接入自动化系统,但整体为闭源架构。 根据官方测试数据,GPT-5.4在计算机操作任务中成功率约为75%,在知识工作评估中约83%的任务达到专业水平,显示其在复杂任务处理与自动化执行方面具备较强能力,适用于内容生产、数据分析及流程自动化等场景。

GPT-5.4的核心功能
- 长上下文处理能力: GPT-5.4支持约百万级上下文长度,使其可以一次性处理大量文本内容,例如完整项目文档、长篇报告或多轮对话记录。在实际应用中,用户可以将多个数据源整合输入模型进行统一分析,例如SEO关键词库分析或商业方案整理,从而减少信息碎片化带来的效率损耗。
- 高级推理能力: GPT-5.4在推理能力方面进行了重点优化,能够进行多步骤逻辑分析与任务拆解。例如在商业策略制定中,可以从目标、资源、路径多个维度输出结构化方案,使其适用于复杂决策类任务。
- 代码生成与优化: 该模型继承并增强了GPT-5.3 Codex的能力,在代码生成、调试及优化方面表现稳定。开发者可以使用其生成完整功能模块或进行代码审查,提高开发效率。
- 工具调用与自动化能力: GPT-5.4支持调用多种工具,例如文件搜索、代码执行及网页检索。在实际应用中,可以构建自动化工作流,例如自动整理数据、生成报告、执行脚本等。
- 计算机操作能力: 该模型支持模拟鼠标和键盘操作,能够执行软件操作任务,例如打开应用、填写表单或执行脚本。这使其在自动化办公和智能代理领域具备实际应用价值。
- 多模态输入能力: GPT-5.4支持图像输入,可用于视觉分析、界面识别及数据提取。例如可以通过截图分析网页结构或识别界面元素,从而辅助自动化操作。
GPT-5.4的性能表现
知识工作能力
- GDPval 测试: GPT-5.4在知识工作评估中达到83.0%的任务达到或超过行业专家水平,相比GPT-5.2的70.9%有明显提升,说明其在复杂任务理解与执行方面更接近专业人士。
- 投行级表格建模: 在金融建模任务中达到87.3%,高于GPT-5.2的68.4%,适用于财务分析、数据建模等高精度场景。
- PPT生成能力: 在人类评审中,68%的评审更偏好GPT-5.4生成的内容,说明其在结构表达与内容组织方面更符合实际业务需求。
计算机操作能力
- OSWorld-Verified: GPT-5.4达到75.0%的任务成功率,超过人类基线72.4%,显著高于GPT-5.2的47.3%,体现其在真实计算机操作任务中的执行能力。
- WebArena-Verified: 达到67.3%,在浏览器操作任务中具备稳定表现,适用于自动化网页操作与数据获取。
- Online-Mind2Web: 达到92.8%,仅通过截图即可完成网页操作,说明其具备较强的视觉理解与任务执行能力。
编程能力
- SWE-Bench Pro: GPT-5.4达到57.7%,略高于GPT-5.3-Codex的56.8%,同时在延迟和Token效率方面表现更优。
- Terminal-Bench 2.0: 达到75.1%,在终端任务处理与命令执行方面表现稳定,适用于开发及自动化运维场景。
工具调用与搜索能力
- BrowseComp: GPT-5.4达到82.7%,Pro版本为89.3%,相比GPT-5.2的65.8%提升明显,说明其在网页检索与信息整合方面能力增强。
- Toolathlon: 达到54.6%,高于GPT-5.2的45.7%,在多步骤工具调用任务中表现更稳定。
- Token效率: 在保持相近准确率的前提下,Token消耗降低约47%,有助于降低API调用成本。
学术与推理能力
- GPQA Diamond: GPT-5.4达到92.8%,Pro版本为94.4%,在科学问答任务中接近高水平表现。
- Humanity’s Last Exam: 在工具辅助下达到52.1%,Pro版本为58.7%,在高难度综合测试中具备稳定表现。
- ARC-AGI-2: 达到73.3%,Pro版本为83.3%,相比GPT-5.2 Pro的54.2%有明显提升,说明其抽象推理能力增强。
可靠性与准确性
- 事实错误率: 单条事实错误概率降低约33%,在信息准确性方面有所提升。
- 整体回答可靠性: 完整回答出错率降低约18%,在复杂任务输出中稳定性更高。

GPT-5.4与主流模型对比
| 模型名 | 上下文 | 多模态 | 推理能力 | 速度 | 是否开源 | 适用场景 |
|---|---|---|---|---|---|---|
| GPT-5.4 | 约100万token | 文本+图像 | 高 | 较快 | 否 | 专业工作、自动化、开发 |
| GPT-5.2 | 较低 | 文本 | 中 | 中 | 否 | 基础对话、文本生成 |
| Claude类模型 | 约20万token | 文本+图像 | 中高 | 中 | 否 | 长文本处理、对话 |
从对比来看,GPT-5.4在上下文长度方面具有明显优势,可以处理更复杂的任务。相比GPT-5.2,其推理能力和工具调用能力显著提升,更适合复杂业务场景。而在多模态能力方面,GPT-5.4支持图像输入,与其他主流模型处于同一水平。整体来看,GPT-5.4更偏向生产力工具,而非单纯对话模型。
如何使用GPT-5.4
- 通过ChatGPT直接使用: 用户可以访问ChatGPT官网或官方App使用GPT-5.4,该模型已向Plus、Team及Pro用户开放,并作为默认思考模型替代GPT-5.2 Thinking。在实际使用中,适合用于内容创作、数据分析及日常任务处理。
- 通过OpenAI API调用: 开发者可以通过API密钥调用gpt-5.4或gpt-5.4-pro模型端点,支持最高约100万Token上下文长度及工具搜索功能。在实际应用中,可以将模型集成到网站、自动化系统或SaaS产品中。
- 结合工具实现自动化工作流: GPT-5.4支持工具调用与网页搜索能力,可以结合外部工具构建自动化流程。
- 使用Codex处理编程任务: 用户可以通过Codex环境调用GPT-5.4进行代码生成与调试,例如输入/fast开启加速模式,或使用实验性100万上下文窗口处理大型代码项目。同时支持Playwright Interactive进行可视化调试,适用于前端开发、自动化测试及复杂工程项目。
- 优化提示词与参数设置: 在使用GPT-5.4时,建议根据任务需求优化提示词结构,例如明确目标、输出格式及约束条件。
GPT‑5.4的产品定价
- ChatGPT 订阅
- Plus/Business订阅:含 GPT-5.4 Thinking(每周3000次)。
- Pro订阅:含 GPT-5.4 Pro(不限量)。
- API 按量计费
- GPT-5.4:输入 $2.50/百万Token,缓存输入 $0.25/百万Token,输出 $15/百万Token。
- GPT-5.4 Pro:输入 $30/百万Token,输出 $180/百万Token。
GPT-5.4的典型应用场景
- 内容创作: 可用于生成文章、营销文案及SEO内容,通过结构化输出提升内容质量和效率。
- 编程开发: 支持代码生成、调试及优化,可用于快速开发应用或提升开发效率。
- 数据分析: 可处理复杂数据并生成分析报告,适用于商业分析及运营优化。
- 自动化办公: 通过工具调用实现文档处理、数据整理及流程自动化。
- AI代理: 可作为智能代理执行复杂任务,例如自动操作软件或完成多步骤流程。
关于GPT-5.4的常见问题
GPT-5.4是否开源?
GPT-5.4为闭源模型,目前未开放权重,仅通过API提供访问。这种方式有助于控制模型安全性,但限制了本地部署。
GPT-5.4是否支持多模态?
支持文本与图像输入,但暂不支持音频和视频处理,适用于视觉与文本结合的任务。
GPT-5.4适合哪些人使用?
适合开发者、内容创作者及需要自动化工作流程的用户,尤其适用于复杂任务处理。
GPT-5.4与GPT-5.2区别?
主要区别在于推理能力、上下文长度及工具能力提升,使其更适合专业场景。
GPT-5.4是否值得使用?
如果需求涉及复杂任务处理或自动化流程,GPT-5.4具有较高实用价值,但需要根据成本进行评估。
© 版权声明
本站文章版权归AI工具箱所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...
浙公网安备33010202004812号