ZCube – 智谱AI联合清华研发的大模型推理网络架构

AI模型4小时前更新 老高
15 0

ZCube快速摘要:

ZCube是由智谱AI联合清华大学等机构提出的大模型推理网络架构,面向PD分离推理与超大规模GPU集群通信优化,通过扁平化拓扑与确定性路由提升推理效率,适用于万卡级智算中心、MaaS推理平台与长上下文AI服务场景。

  • 架构名称:ZCube
  • 开发公司:智谱AI联合清华大学等研究机构
  • 发布时间:2026年5月21日首次在GLM-5.1生产集群完成规模化落地验证
  • 主要功能:优化GPU推理通信路径、降低网络拥塞、提升TTFT与吞吐性能,用于大模型推理阶段加速。
  • 使用要求:依赖GPU集群与Leaf交换机架构环境,不改变模型与推理框架,仅调整网络拓扑结构。
  • 开源情况:目前未明确完全开源,部分设计理念来源于公开技术论文与工程实践描述。
  • 适用场景:万卡级推理集群、长上下文生成服务、MaaS推理平台、AI算力中心网络升级。
  • 技术特点:扁平二部图拓扑、确定性路由、PD分离优化、GPU通信路径压缩设计。
  • 价格:无独立软件价格,成本体现在网络结构改造与硬件部署优化上。
ZCube – 智谱AI推出的大模型推理网络优化架构

ZCube的核心优势

  • 网络拥塞结构性消除能力:通过扁平二部图替代传统三层网络结构,在GPU大规模通信中减少转发层级与冲突路径,在生产集群验证中表现为TTFT显著下降,用于提升推理稳定性与吞吐效率。
  • 推理吞吐提升能力:在不改变GPU算力条件下,通过确定性路由减少通信冲突,使集群整体吞吐提升约10%~15%,适用于高并发推理请求与MaaS服务场景。
  • TTFT延迟优化能力:通过减少多跳转发与路径不确定性降低首Token生成延迟,在长上下文任务中表现更稳定,适用于实时交互式AI应用。
  • 网络成本降低能力:减少Spine层交换设备依赖,在万卡集群中可降低约30%网络硬件成本,用于智算中心基础设施升级。
  • 零侵入式升级能力:无需修改模型与推理框架,仅调整网络拓扑即可部署,适用于存量GPU集群改造与渐进式升级。

ZCube的核心功能

  • 扁平二部图组网功能:通过Leaf节点全互联方式替代传统三层网络结构,使GPU之间通信路径减少至2跳以内,在大规模推理输入下减少中间交换延迟,提高整体通信效率。
  • 确定性路由映射功能:基于GPU编号与交换机编号的映射关系生成固定路径,使每次通信路径保持一致,从而避免动态路由引发的不确定拥塞问题,提高系统可预测性。
  • PD分离流量优化功能:针对Prefill与Decode阶段流量差异进行隔离优化,使大模型推理阶段不同计算模式之间互不干扰,提高GPU资源利用率与调度效率。
  • KV Cache跨节点优化功能:在长上下文任务中优化缓存跨GPU传输路径,通过减少跨节点通信次数降低带宽压力,使长文本生成任务延迟更加稳定。
  • 多轨链路接入功能:支持GPU双端口接入不同网络平面,实现流量物理分离,在高并发请求场景下减少热点链路形成概率,提高整体网络稳定性。

ZCube的技术原理

  • 扁平化拓扑架构原理:采用Leaf-Leaf二部图结构替代传统Spine-Leaf架构,通过减少网络层级与转发节点数量降低通信延迟,在大规模GPU集群中形成低直径网络结构。
  • 确定性路由机制原理:通过数学映射函数将GPU编号映射至固定通信路径,使网络路径不依赖动态计算,从而减少路由计算开销并提升通信稳定性。
  • PD分离通信建模原理:将推理过程拆分为Prefill与Decode阶段,并对其通信模式进行差异化建模,使不同阶段的数据流在网络层实现结构隔离。
  • 多轨并行网络结构原理:通过双网络平面并行承载不同GPU通信流量,使带宽利用更加均衡,同时降低单链路拥塞风险,提高整体吞吐能力。
  • KV Cache优化传输原理:通过优化缓存数据跨节点路径减少重复传输,在长上下文生成过程中降低通信复杂度,提高首Token响应效率。

ZCube与主流网络架构对比

对比维度ZCubeROFT(Rail-Optimized Fat-Tree)Clos网络(传统方案)
网络拓扑结构采用Leaf-Leaf二部图扁平结构,通过减少交换层级将GPU通信压缩为2跳路径,降低中间转发复杂度基于Fat-Tree优化的Rail分区结构,通过轨道化分组提升局部通信效率,但仍保留多层交换结构标准Spine-Leaf三层架构,依赖多级交换与上层汇聚,路径较长且依赖ECMP负载均衡
拥塞控制模型通过确定性路由与结构性路径固定减少动态拥塞,适用于PD分离推理场景下KV Cache流量稳定传输通过Rail分区减少跨组流量,但仍依赖PFC与ECN进行拥塞控制,存在局部热点问题依赖传统ECMP+PFC机制进行拥塞控制,在高并发GPU通信中容易出现反压扩散
推理性能表现在GLM类推理集群验证中表现为TTFT下降约30%~40%,吞吐提升约10%~15%,来源于生产环境测试描述在中等规模GPU集群中提升稳定性,但在万卡级别场景下收益下降明显性能受限于多跳通信与路径冲突,在高负载推理场景中延迟波动较大
扩展能力适用于千卡到万卡级超大规模推理集群,结构扁平化后扩展复杂度随规模增长线性增加适用于中大型GPU集群(千卡级),扩展时需要重新划分Rail区域适用于中等规模集群,扩展至超大规模时网络层级复杂度快速上升
部署与改造成本无需修改模型与推理框架,仅调整网络拓扑结构,但需要重新规划GPU与交换机映射关系需要调整Fat-Tree结构与Rail划分,对现有网络改造成本中等标准化程度较高,部署成本低,但性能优化空间有限
适用场景面向PD分离推理、大模型MaaS服务、长上下文生成等高并发推理任务适用于企业级AI训练与中等规模推理混合负载场景适用于传统数据中心与通用AI训练网络

ZCube、ROFT与Clos的核心差异在于网络优化思路。ZCube通过扁平二部图减少交换层级,实现确定性2跳通信,更适合万卡级PD分离推理场景。ROFT则基于Fat-Tree进行Rail分区优化,兼顾性能与兼容性,适用于中大型GPU集群。传统Clos网络依赖ECMP与PFC控制拥塞,结构成熟但高负载下延迟波动更明显。因此,ZCube更偏向超大规模推理优化,ROFT偏向通用集群增强,而Clos适合作为标准基础网络方案。

如何使用ZCube

  1. 集群拓扑规划:根据GPU规模设计Leaf交换机分组结构,例如每组连接16至32个GPU节点,通过双平面网络设计确保通信路径均衡,提升整体带宽利用效率。
  2. 双端口网络配置:为GPU配置双网络接口分别连接不同Leaf组,建议使用400G链路实现多轨通信,从而降低单链路拥塞风险并提升稳定性。
  3. 确定性路径映射:基于GPU编号生成固定路由映射表,例如1024节点集群生成固定2跳路径,确保所有通信请求路径一致以减少动态路由开销。
  4. PD流量调优配置:根据推理任务调整Prefill与Decode比例,例如初始设置6:4,通过负载监控动态调整,提高KV Cache传输效率。
  5. 性能监控优化:持续监控TTFT与吞吐指标,建议将P99延迟控制在100ms以内,通过调整拓扑负载实现稳定推理性能输出。

ZCube的项目地址

项目官网https://z.ai/blog/zcube

ZCube的局限性

  • 工程部署复杂度较高:需要精确设计二部图拓扑结构并进行GPU编号映射,配置错误可能导致路径失配,该问题源于结构化网络设计复杂性,目前仍依赖工程经验进行部署优化。
  • 适用范围相对集中:主要针对大模型推理阶段优化,对训练任务或混合负载优化效果有限,目前公开资料未显示其扩展至通用训练网络的规划。
  • 运维与调优门槛较高:需要具备高性能网络工程能力进行持续优化,对中小型团队落地存在一定技术门槛,通常依赖大型智算中心部署。

ZCube的典型应用场景

  • 万卡级推理集群:输入大规模GPU集群需求,通过扁平拓扑设计与确定性路由优化,输出低延迟推理服务能力,提升整体系统吞吐效率与稳定性。
  • 长上下文AI生成服务:输入超长文本请求,通过优化KV Cache传输路径,输出稳定低延迟响应结果,提高长文本处理效率。
  • MaaS云推理平台:输入多租户并发请求,通过流量隔离与路径确定性分配,输出稳定SLA服务能力并降低云计算成本。
  • AI智算中心升级改造:输入传统Clos网络架构,通过结构替换为ZCube拓扑,输出性能提升与成本下降的综合优化效果。
  • 高并发实时推理系统:输入高并发请求流量,通过多轨网络结构分流,输出稳定响应能力并减少拥塞波动。

ZCube常见问题

ZCube到底是什么?

ZCube是一种面向大模型推理优化的网络拓扑架构,通过扁平化二部图结构与确定性路由优化GPU通信路径,提高推理效率与稳定性。

ZCube和传统RoCE或Clos网络有什么区别?

ZCube通过结构重构减少网络层级,而RoCE和Clos主要依赖协议优化或交换机制优化。

ZCube如何部署使用?

ZCube通过调整GPU网络拓扑与交换机连接方式实现部署,不需要修改模型或推理框架。

ZCube适合多大规模集群?

ZCube主要面向中大型至万卡级GPU集群优化,在小规模环境中优势不明显。

ZCube有免费或开源版本吗?

当前公开资料未明确提供完全开源版本,主要以工程架构形式在生产环境中应用。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...