Qwen3.7-Max – 阿里通义推出的智能体旗舰大模型

AI模型19小时前更新 老高
71 0

Qwen3.7-Max快速摘要

Qwen3.7-Max是阿里巴巴通义千问团队发布的新一代旗舰大模型,面向智能体(Agentic AI)时代设计,重点强化长周期自主执行、工具调用与跨框架泛化能力,适用于企业自动化与复杂软件工程任务。

  • 模型名称:Qwen3.7-Max
  • 开发公司:Alibaba Group / 通义千问(Qwen)团队
  • 发布时间:2026年5月19日阿里云峰会发布
  • 主要功能:智能体编程、MCP工具调用、长周期自主执行、办公自动化、跨框架Agent适配。
  • 上下文能力:约1.0M tokens上下文窗口,据Artificial Analysis Intelligence Index测评体系数据。
  • 开源情况:模型权重未开源,采用API商业化调用模式,通过阿里云百炼平台提供接入。
  • 适用场景:企业级自动化、软件工程Agent、科研推理、复杂工具链编排与多智能体协作系统。
  • 技术特点:强化学习环境扩展、任务-框架-验证器解耦训练、跨框架泛化与长周期稳定推理。
  • 价格:API定价尚未公开,预计采用按Token计费模式,具体标准待官方发布确认。
Qwen3.7-Max – 阿里通义推出的智能体旗舰大模型

Qwen3.7-Max的核心优势

  • 长周期自主执行优势:Qwen3.7-Max通过强化学习驱动的工具调用闭环机制,在35小时连续任务中完成超过1000次工具调用与432次kernel评估。
  • 编程与工程能力优势:基于SWE-Pro 60.6与SWE-Multilingual 78.3等编程基准表现,该模型采用多文件工程级生成与调试机制,可从需求输入直接生成完整软件系统并进行自动修复。
  • 跨框架泛化优势:通过任务、运行框架与验证器解耦训练机制,在Claude CodeOpenClaw与Qwen Code等不同Agent框架中保持稳定性能表现。
  • 推理与科学能力优势:在GPQA Diamond 92.4、HMMT 97.1与HLE 41.4等高难度推理任务中表现领先,展现稳定的多步推理能力与错误修正能力。
  • 企业级自动化优势:结合MCP协议与多智能体协作机制,在SpreadSheetBench-v1取得87.0分,实现从数据分析、报表生成到跨系统流程编排的全自动执行能力。
Qwen3.7-Max 在各类基准测试中的模型表现对比

Qwen3.7-Max的核心功能

  • 智能体编程功能:支持从前端UI到后端系统的全栈开发流程,输入“构建电商系统原型”,模型可自动生成HTML、后端逻辑与API接口,并进行调试优化,实现端到端软件工程自动化输出。
  • 工具调用与MCP集成功能:通过Model Context Protocol实现企业工具链连接,例如输入“分析销售数据并生成报告”,系统自动调用表格工具、统计模块与文档生成器完成完整工作流输出。
  • 长周期任务执行功能:支持超过数小时至数十小时持续执行任务,在35小时kernel优化实验中持续进行代码生成与性能调优,输出从1x提升至10x加速结果。
  • 跨框架Agent适配功能:在Claude Code、OpenClaw等不同运行框架中可直接部署,例如输入相同任务提示词,可在不同工具链中保持一致输出结果,提高系统迁移效率与稳定性。
  • 多智能体协作功能:支持多个Agent协同执行复杂任务,例如数据分析Agent、代码生成Agent与验证Agent协同完成项目交付,实现企业级任务拆解与自动化协同执行流程。

Qwen3.7-Max的技术原理

  • 环境扩展训练机制:基于Qwen3.5环境扩展方法升级,通过构建多样化训练环境提升泛化能力,使模型在未见过任务环境中仍能稳定推理。
  • 任务-框架-验证器解耦架构:将训练实例拆分为任务、运行框架与验证器三部分,实现组合式训练结构。
  • 长链强化学习优化机制:通过超过1000次工具调用反馈进行策略优化,在长周期任务中不断修正执行路径。
  • 工具调用驱动推理架构:模型不依赖单次生成,而是通过多轮工具调用进行外部环境交互。
  • 跨框架泛化推理机制:通过解耦训练与运行环境,使模型在不同Agent框架中共享统一策略空间。

如何使用Qwen3.7-Max

  1. API接入配置:通过阿里云百炼平台(Qwen3.7-Max即将上线)申请API权限,配置Access Key与调用环境,设置模型参数如temperature=0.3max_tokens=4096以提升稳定性与执行一致性。
  2. 工具链接入:启用MCP协议连接企业工具,例如Excel、数据库与文档系统,使模型能够调用外部API完成数据分析与自动化任务执行。
  3. Agent任务编排:通过提示词定义任务链结构,例如“先分析数据→再生成报告→最后输出PPT”,模型会自动拆解并调用对应工具执行。
  4. 长任务优化设置:启用多轮执行模式与工具反馈机制,将任务拆分为子步骤,使模型在长周期执行中保持稳定推理路径与状态一致性。
  5. 跨框架部署配置:在Claude Code或OpenClaw等框架中加载模型接口,保持统一API调用方式,实现多系统Agent协同运行与任务迁移。

Qwen3.7-Max相关资源

Qwen3.7-Max与主流模型对比

对比维度Qwen3.7-MaxClaude Opus 4.6 MaxDeepSeek V4 ProGLM-5.1
编程智能体能力SWE-Pro 60.6,Terminal Bench 69.7,据官方测评显示在复杂工程任务中具备更强工具调用能力SWE-Verified 80.8,在代码正确性任务中略优但长周期执行较弱代码生成能力较强但多文件工程一致性较弱中等水平,偏通用生成能力
长周期执行能力35小时自主优化任务,1000+工具调用持续改进,据红星新闻报道表现突出稳定短中任务,但公开长周期实验较少支持中短链任务,长链稳定性一般具备一定Agent能力但持续性较弱
推理能力GPQA 92.4、HMMT 97.1,基于强化学习长链推理优化GPQA 91.3,稳定但扩展性较弱数学能力中等偏上基础推理能力稳定
工具调用能力MCP-Mark 60.8,支持多工具链编排与自动化执行工具调用较稳定但生态封闭工具调用能力有限基础工具支持
跨框架泛化Claude Code/OpenClaw/Qwen Code均可稳定运行主要优化自有生态跨框架能力有限依赖特定平台

从技术路径来看,Qwen3.7-Max的核心差异在于“Agent-first”设计,而非传统语言模型优化路线。其优势主要来源于任务环境解耦训练与长周期强化学习机制,使其在工具调用密集型任务中表现更稳定。相比传统以MMLU或单轮推理为核心的评测体系,该模型更偏向真实世界执行能力,因此在KernelBench、MCP类任务中优势更明显,而在纯语言理解任务中差距较小但并非主要竞争点。

Qwen3.7-Max的局限性

  • 长任务资源消耗高:在35小时以上长周期任务中需要持续工具调用与计算资源支持,据实验数据表明算力消耗显著高于短链模型。
  • 非多模态限制:当前版本仅支持文本输入输出,不支持图像与视频输入处理。

Qwen3.7-Max的典型应用场景

  • 软件工程全流程开发:输入“开发电商系统”,模型自动完成需求分析、代码生成、调试与部署输出,实现端到端软件交付能力,适用于企业级开发自动化。
  • 企业数据分析自动化:输入销售数据表格,模型自动调用分析工具生成可视化报告与结论,提高数据处理效率并减少人工分析成本。
  • 长周期科研推理任务:输入复杂数学或科研问题,模型持续执行多步推理与验证输出,适用于高复杂度科学计算与论文辅助研究。
  • 跨系统办公流程编排:输入“生成月度运营报告”,模型自动连接CRM、Excel与文档系统完成数据整合与报告生成,实现办公自动化。
  • 多智能体协作系统构建:输入复杂任务拆解需求,由多个Agent协同执行不同子任务,实现企业级自动化生产线与任务调度系统。

Qwen3.7-Max常见问题

Qwen3.7-Max如何计费?

目前采用API按量计费模式,据阿里云百炼体系说明,具体价格尚未正式公布,预计按Token消耗计费。

Qwen3.7-Max和Claude哪个好?

在编程与长周期Agent任务中Qwen3.7-Max表现更强,在SWE与KernelBench类任务中优势明显,而Claude在通用对话与部分办公任务中更稳定,建议根据任务类型选择模型。

Qwen3.7-Max怎么使用?

通过阿里云百炼API调用使用,需要注册开发者账号并获取密钥,通过HTTP或SDK方式接入模型服务。

Qwen3.7-Max支持实时多模态吗?

当前版本仅支持文本输入输出,不支持图像或视频输入,据官方说明多模态能力尚在扩展规划中。

Qwen3.7-Max有免费额度吗?

官方尚未明确公布免费额度政策,通常企业API会提供试用额度或开发者测试配额。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...