ZCube快速摘要:
ZCube是由智谱AI联合清华大学等机构提出的大模型推理网络架构,面向PD分离推理与超大规模GPU集群通信优化,通过扁平化拓扑与确定性路由提升推理效率,适用于万卡级智算中心、MaaS推理平台与长上下文AI服务场景。
- 架构名称:ZCube
- 开发公司:智谱AI联合清华大学等研究机构
- 发布时间:2026年5月21日首次在GLM-5.1生产集群完成规模化落地验证
- 主要功能:优化GPU推理通信路径、降低网络拥塞、提升TTFT与吞吐性能,用于大模型推理阶段加速。
- 使用要求:依赖GPU集群与Leaf交换机架构环境,不改变模型与推理框架,仅调整网络拓扑结构。
- 开源情况:目前未明确完全开源,部分设计理念来源于公开技术论文与工程实践描述。
- 适用场景:万卡级推理集群、长上下文生成服务、MaaS推理平台、AI算力中心网络升级。
- 技术特点:扁平二部图拓扑、确定性路由、PD分离优化、GPU通信路径压缩设计。
- 价格:无独立软件价格,成本体现在网络结构改造与硬件部署优化上。

ZCube的核心优势
- 网络拥塞结构性消除能力:通过扁平二部图替代传统三层网络结构,在GPU大规模通信中减少转发层级与冲突路径,在生产集群验证中表现为TTFT显著下降,用于提升推理稳定性与吞吐效率。
- 推理吞吐提升能力:在不改变GPU算力条件下,通过确定性路由减少通信冲突,使集群整体吞吐提升约10%~15%,适用于高并发推理请求与MaaS服务场景。
- TTFT延迟优化能力:通过减少多跳转发与路径不确定性降低首Token生成延迟,在长上下文任务中表现更稳定,适用于实时交互式AI应用。
- 网络成本降低能力:减少Spine层交换设备依赖,在万卡集群中可降低约30%网络硬件成本,用于智算中心基础设施升级。
- 零侵入式升级能力:无需修改模型与推理框架,仅调整网络拓扑即可部署,适用于存量GPU集群改造与渐进式升级。
ZCube的核心功能
- 扁平二部图组网功能:通过Leaf节点全互联方式替代传统三层网络结构,使GPU之间通信路径减少至2跳以内,在大规模推理输入下减少中间交换延迟,提高整体通信效率。
- 确定性路由映射功能:基于GPU编号与交换机编号的映射关系生成固定路径,使每次通信路径保持一致,从而避免动态路由引发的不确定拥塞问题,提高系统可预测性。
- PD分离流量优化功能:针对Prefill与Decode阶段流量差异进行隔离优化,使大模型推理阶段不同计算模式之间互不干扰,提高GPU资源利用率与调度效率。
- KV Cache跨节点优化功能:在长上下文任务中优化缓存跨GPU传输路径,通过减少跨节点通信次数降低带宽压力,使长文本生成任务延迟更加稳定。
- 多轨链路接入功能:支持GPU双端口接入不同网络平面,实现流量物理分离,在高并发请求场景下减少热点链路形成概率,提高整体网络稳定性。
ZCube的技术原理
- 扁平化拓扑架构原理:采用Leaf-Leaf二部图结构替代传统Spine-Leaf架构,通过减少网络层级与转发节点数量降低通信延迟,在大规模GPU集群中形成低直径网络结构。
- 确定性路由机制原理:通过数学映射函数将GPU编号映射至固定通信路径,使网络路径不依赖动态计算,从而减少路由计算开销并提升通信稳定性。
- PD分离通信建模原理:将推理过程拆分为Prefill与Decode阶段,并对其通信模式进行差异化建模,使不同阶段的数据流在网络层实现结构隔离。
- 多轨并行网络结构原理:通过双网络平面并行承载不同GPU通信流量,使带宽利用更加均衡,同时降低单链路拥塞风险,提高整体吞吐能力。
- KV Cache优化传输原理:通过优化缓存数据跨节点路径减少重复传输,在长上下文生成过程中降低通信复杂度,提高首Token响应效率。
ZCube与主流网络架构对比
| 对比维度 | ZCube | ROFT(Rail-Optimized Fat-Tree) | Clos网络(传统方案) |
|---|---|---|---|
| 网络拓扑结构 | 采用Leaf-Leaf二部图扁平结构,通过减少交换层级将GPU通信压缩为2跳路径,降低中间转发复杂度 | 基于Fat-Tree优化的Rail分区结构,通过轨道化分组提升局部通信效率,但仍保留多层交换结构 | 标准Spine-Leaf三层架构,依赖多级交换与上层汇聚,路径较长且依赖ECMP负载均衡 |
| 拥塞控制模型 | 通过确定性路由与结构性路径固定减少动态拥塞,适用于PD分离推理场景下KV Cache流量稳定传输 | 通过Rail分区减少跨组流量,但仍依赖PFC与ECN进行拥塞控制,存在局部热点问题 | 依赖传统ECMP+PFC机制进行拥塞控制,在高并发GPU通信中容易出现反压扩散 |
| 推理性能表现 | 在GLM类推理集群验证中表现为TTFT下降约30%~40%,吞吐提升约10%~15%,来源于生产环境测试描述 | 在中等规模GPU集群中提升稳定性,但在万卡级别场景下收益下降明显 | 性能受限于多跳通信与路径冲突,在高负载推理场景中延迟波动较大 |
| 扩展能力 | 适用于千卡到万卡级超大规模推理集群,结构扁平化后扩展复杂度随规模增长线性增加 | 适用于中大型GPU集群(千卡级),扩展时需要重新划分Rail区域 | 适用于中等规模集群,扩展至超大规模时网络层级复杂度快速上升 |
| 部署与改造成本 | 无需修改模型与推理框架,仅调整网络拓扑结构,但需要重新规划GPU与交换机映射关系 | 需要调整Fat-Tree结构与Rail划分,对现有网络改造成本中等 | 标准化程度较高,部署成本低,但性能优化空间有限 |
| 适用场景 | 面向PD分离推理、大模型MaaS服务、长上下文生成等高并发推理任务 | 适用于企业级AI训练与中等规模推理混合负载场景 | 适用于传统数据中心与通用AI训练网络 |
ZCube、ROFT与Clos的核心差异在于网络优化思路。ZCube通过扁平二部图减少交换层级,实现确定性2跳通信,更适合万卡级PD分离推理场景。ROFT则基于Fat-Tree进行Rail分区优化,兼顾性能与兼容性,适用于中大型GPU集群。传统Clos网络依赖ECMP与PFC控制拥塞,结构成熟但高负载下延迟波动更明显。因此,ZCube更偏向超大规模推理优化,ROFT偏向通用集群增强,而Clos适合作为标准基础网络方案。
如何使用ZCube
- 集群拓扑规划:根据GPU规模设计Leaf交换机分组结构,例如每组连接16至32个GPU节点,通过双平面网络设计确保通信路径均衡,提升整体带宽利用效率。
- 双端口网络配置:为GPU配置双网络接口分别连接不同Leaf组,建议使用400G链路实现多轨通信,从而降低单链路拥塞风险并提升稳定性。
- 确定性路径映射:基于GPU编号生成固定路由映射表,例如1024节点集群生成固定2跳路径,确保所有通信请求路径一致以减少动态路由开销。
- PD流量调优配置:根据推理任务调整Prefill与Decode比例,例如初始设置6:4,通过负载监控动态调整,提高KV Cache传输效率。
- 性能监控优化:持续监控TTFT与吞吐指标,建议将P99延迟控制在100ms以内,通过调整拓扑负载实现稳定推理性能输出。
ZCube的项目地址
ZCube的局限性
- 工程部署复杂度较高:需要精确设计二部图拓扑结构并进行GPU编号映射,配置错误可能导致路径失配,该问题源于结构化网络设计复杂性,目前仍依赖工程经验进行部署优化。
- 适用范围相对集中:主要针对大模型推理阶段优化,对训练任务或混合负载优化效果有限,目前公开资料未显示其扩展至通用训练网络的规划。
- 运维与调优门槛较高:需要具备高性能网络工程能力进行持续优化,对中小型团队落地存在一定技术门槛,通常依赖大型智算中心部署。
ZCube的典型应用场景
- 万卡级推理集群:输入大规模GPU集群需求,通过扁平拓扑设计与确定性路由优化,输出低延迟推理服务能力,提升整体系统吞吐效率与稳定性。
- 长上下文AI生成服务:输入超长文本请求,通过优化KV Cache传输路径,输出稳定低延迟响应结果,提高长文本处理效率。
- MaaS云推理平台:输入多租户并发请求,通过流量隔离与路径确定性分配,输出稳定SLA服务能力并降低云计算成本。
- AI智算中心升级改造:输入传统Clos网络架构,通过结构替换为ZCube拓扑,输出性能提升与成本下降的综合优化效果。
- 高并发实时推理系统:输入高并发请求流量,通过多轨网络结构分流,输出稳定响应能力并减少拥塞波动。
ZCube常见问题
ZCube到底是什么?
ZCube是一种面向大模型推理优化的网络拓扑架构,通过扁平化二部图结构与确定性路由优化GPU通信路径,提高推理效率与稳定性。
ZCube和传统RoCE或Clos网络有什么区别?
ZCube通过结构重构减少网络层级,而RoCE和Clos主要依赖协议优化或交换机制优化。
ZCube如何部署使用?
ZCube通过调整GPU网络拓扑与交换机连接方式实现部署,不需要修改模型或推理框架。
ZCube适合多大规模集群?
ZCube主要面向中大型至万卡级GPU集群优化,在小规模环境中优势不明显。
ZCube有免费或开源版本吗?
当前公开资料未明确提供完全开源版本,主要以工程架构形式在生产环境中应用。
© 版权声明
本站文章版权归AI工具箱所有,未经允许禁止任何形式的转载。
相关文章
暂无评论...
浙公网安备33010202004812号