ZCube – 智谱AI联合清华研发的大模型推理网络架构

AI模型2个月前更新老高

544 0 1

ZCube快速摘要：

ZCube是由智谱AI联合清华大学等机构提出的大模型推理网络架构，面向PD分离推理与超大规模GPU集群通信优化，通过扁平化拓扑与确定性路由提升推理效率，适用于万卡级智算中心、MaaS推理平台与长上下文AI服务场景。

架构名称：ZCube
开发公司：智谱AI联合清华大学等研究机构
发布时间：2026年5月21日首次在GLM-5.1生产集群完成规模化落地验证
主要功能：优化GPU推理通信路径、降低网络拥塞、提升TTFT与吞吐性能，用于大模型推理阶段加速。
使用要求：依赖GPU集群与Leaf交换机架构环境，不改变模型与推理框架，仅调整网络拓扑结构。
开源情况：目前未明确完全开源，部分设计理念来源于公开技术论文与工程实践描述。
适用场景：万卡级推理集群、长上下文生成服务、MaaS推理平台、AI算力中心网络升级。
技术特点：扁平二部图拓扑、确定性路由、PD分离优化、GPU通信路径压缩设计。
价格：无独立软件价格，成本体现在网络结构改造与硬件部署优化上。

ZCube的核心优势

网络拥塞结构性消除能力：通过扁平二部图替代传统三层网络结构，在GPU大规模通信中减少转发层级与冲突路径，在生产集群验证中表现为TTFT显著下降，用于提升推理稳定性与吞吐效率。
推理吞吐提升能力：在不改变GPU算力条件下，通过确定性路由减少通信冲突，使集群整体吞吐提升约10%~15%，适用于高并发推理请求与MaaS服务场景。
TTFT延迟优化能力：通过减少多跳转发与路径不确定性降低首Token生成延迟，在长上下文任务中表现更稳定，适用于实时交互式AI应用。
网络成本降低能力：减少Spine层交换设备依赖，在万卡集群中可降低约30%网络硬件成本，用于智算中心基础设施升级。
零侵入式升级能力：无需修改模型与推理框架，仅调整网络拓扑即可部署，适用于存量GPU集群改造与渐进式升级。

ZCube的核心功能

扁平二部图组网功能：通过Leaf节点全互联方式替代传统三层网络结构，使GPU之间通信路径减少至2跳以内，在大规模推理输入下减少中间交换延迟，提高整体通信效率。
确定性路由映射功能：基于GPU编号与交换机编号的映射关系生成固定路径，使每次通信路径保持一致，从而避免动态路由引发的不确定拥塞问题，提高系统可预测性。
PD分离流量优化功能：针对Prefill与Decode阶段流量差异进行隔离优化，使大模型推理阶段不同计算模式之间互不干扰，提高GPU资源利用率与调度效率。
KV Cache跨节点优化功能：在长上下文任务中优化缓存跨GPU传输路径，通过减少跨节点通信次数降低带宽压力，使长文本生成任务延迟更加稳定。
多轨链路接入功能：支持GPU双端口接入不同网络平面，实现流量物理分离，在高并发请求场景下减少热点链路形成概率，提高整体网络稳定性。

ZCube的技术原理

扁平化拓扑架构原理：采用Leaf-Leaf二部图结构替代传统Spine-Leaf架构，通过减少网络层级与转发节点数量降低通信延迟，在大规模GPU集群中形成低直径网络结构。
确定性路由机制原理：通过数学映射函数将GPU编号映射至固定通信路径，使网络路径不依赖动态计算，从而减少路由计算开销并提升通信稳定性。
PD分离通信建模原理：将推理过程拆分为Prefill与Decode阶段，并对其通信模式进行差异化建模，使不同阶段的数据流在网络层实现结构隔离。
多轨并行网络结构原理：通过双网络平面并行承载不同GPU通信流量，使带宽利用更加均衡，同时降低单链路拥塞风险，提高整体吞吐能力。
KV Cache优化传输原理：通过优化缓存数据跨节点路径减少重复传输，在长上下文生成过程中降低通信复杂度，提高首Token响应效率。

ZCube与主流网络架构对比

对比维度	ZCube	ROFT（Rail-Optimized Fat-Tree）	Clos网络（传统方案）
网络拓扑结构	采用Leaf-Leaf二部图扁平结构，通过减少交换层级将GPU通信压缩为2跳路径，降低中间转发复杂度	基于Fat-Tree优化的Rail分区结构，通过轨道化分组提升局部通信效率，但仍保留多层交换结构	标准Spine-Leaf三层架构，依赖多级交换与上层汇聚，路径较长且依赖ECMP负载均衡
拥塞控制模型	通过确定性路由与结构性路径固定减少动态拥塞，适用于PD分离推理场景下KV Cache流量稳定传输	通过Rail分区减少跨组流量，但仍依赖PFC与ECN进行拥塞控制，存在局部热点问题	依赖传统ECMP+PFC机制进行拥塞控制，在高并发GPU通信中容易出现反压扩散
推理性能表现	在GLM类推理集群验证中表现为TTFT下降约30%~40%，吞吐提升约10%~15%，来源于生产环境测试描述	在中等规模GPU集群中提升稳定性，但在万卡级别场景下收益下降明显	性能受限于多跳通信与路径冲突，在高负载推理场景中延迟波动较大
扩展能力	适用于千卡到万卡级超大规模推理集群，结构扁平化后扩展复杂度随规模增长线性增加	适用于中大型GPU集群（千卡级），扩展时需要重新划分Rail区域	适用于中等规模集群，扩展至超大规模时网络层级复杂度快速上升
部署与改造成本	无需修改模型与推理框架，仅调整网络拓扑结构，但需要重新规划GPU与交换机映射关系	需要调整Fat-Tree结构与Rail划分，对现有网络改造成本中等	标准化程度较高，部署成本低，但性能优化空间有限
适用场景	面向PD分离推理、大模型MaaS服务、长上下文生成等高并发推理任务	适用于企业级AI训练与中等规模推理混合负载场景	适用于传统数据中心与通用AI训练网络

ZCube、ROFT与Clos的核心差异在于网络优化思路。ZCube通过扁平二部图减少交换层级，实现确定性2跳通信，更适合万卡级PD分离推理场景。ROFT则基于Fat-Tree进行Rail分区优化，兼顾性能与兼容性，适用于中大型GPU集群。传统Clos网络依赖ECMP与PFC控制拥塞，结构成熟但高负载下延迟波动更明显。因此，ZCube更偏向超大规模推理优化，ROFT偏向通用集群增强，而Clos适合作为标准基础网络方案。

如何使用ZCube

集群拓扑规划：根据GPU规模设计Leaf交换机分组结构，例如每组连接16至32个GPU节点，通过双平面网络设计确保通信路径均衡，提升整体带宽利用效率。
双端口网络配置：为GPU配置双网络接口分别连接不同Leaf组，建议使用400G链路实现多轨通信，从而降低单链路拥塞风险并提升稳定性。
确定性路径映射：基于GPU编号生成固定路由映射表，例如1024节点集群生成固定2跳路径，确保所有通信请求路径一致以减少动态路由开销。
PD流量调优配置：根据推理任务调整Prefill与Decode比例，例如初始设置6:4，通过负载监控动态调整，提高KV Cache传输效率。
性能监控优化：持续监控TTFT与吞吐指标，建议将P99延迟控制在100ms以内，通过调整拓扑负载实现稳定推理性能输出。

ZCube的项目地址

项目官网：https://z.ai/blog/zcube

ZCube的局限性

工程部署复杂度较高：需要精确设计二部图拓扑结构并进行GPU编号映射，配置错误可能导致路径失配，该问题源于结构化网络设计复杂性，目前仍依赖工程经验进行部署优化。
适用范围相对集中：主要针对大模型推理阶段优化，对训练任务或混合负载优化效果有限，目前公开资料未显示其扩展至通用训练网络的规划。
运维与调优门槛较高：需要具备高性能网络工程能力进行持续优化，对中小型团队落地存在一定技术门槛，通常依赖大型智算中心部署。

ZCube的典型应用场景

万卡级推理集群：输入大规模GPU集群需求，通过扁平拓扑设计与确定性路由优化，输出低延迟推理服务能力，提升整体系统吞吐效率与稳定性。
长上下文AI生成服务：输入超长文本请求，通过优化KV Cache传输路径，输出稳定低延迟响应结果，提高长文本处理效率。
MaaS云推理平台：输入多租户并发请求，通过流量隔离与路径确定性分配，输出稳定SLA服务能力并降低云计算成本。
AI智算中心升级改造：输入传统Clos网络架构，通过结构替换为ZCube拓扑，输出性能提升与成本下降的综合优化效果。
高并发实时推理系统：输入高并发请求流量，通过多轨网络结构分流，输出稳定响应能力并减少拥塞波动。

ZCube常见问题

ZCube到底是什么？

ZCube是一种面向大模型推理优化的网络拓扑架构，通过扁平化二部图结构与确定性路由优化GPU通信路径，提高推理效率与稳定性。

ZCube和传统RoCE或Clos网络有什么区别？

ZCube通过结构重构减少网络层级，而RoCE和Clos主要依赖协议优化或交换机制优化。

ZCube如何部署使用？

ZCube通过调整GPU网络拓扑与交换机连接方式实现部署，不需要修改模型或推理框架。

ZCube适合多大规模集群？

ZCube主要面向中大型至万卡级GPU集群优化，在小规模环境中优势不明显。

ZCube有免费或开源版本吗？

当前公开资料未明确提供完全开源版本，主要以工程架构形式在生产环境中应用。

# AI模型 # AI推理网络

本站文章版权归AI工具箱所有，未经允许禁止任何形式的转载。

SenseNova-MARS – 商汤科技开源的多模态自主推理与视觉搜索模型

老高

498 1

LongCat-2.0 – 美团推出的具备智能体能力的大语言模型

老高

44 1

Muse Spark – Meta 推出的原生多模态多智能体推理模型

老高

431 1

ERNIE-Image – 百度文心开源的8B参数文生图模型

老高

986 1

GPT-5.6 – OpenAI推出的多智能体推理与复杂任务处理模型

老高

186 1

HiDream-O1-Image-Pro – 智象未来推出基于UiT的原生全模态图像生成模型

老高

446 1

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...