AI
数据中心网络
高性能和无丢包指网络带宽性能的提升以及网络中不存在拥塞导致的丢包。产生时延的环节较多,要实现端到端的低时延,需要多角度分析:
其中,光电传输时延和数据串行时延相对较小,且很难通过架构设计来优化,我们应重点关注主机处理时延和设备转发时延。在各大企业积极寻求的高性能计算方案中,基于以太网的RDMA(Remote Direct Memory Access)凭借其高性能和低成本优势逐渐取代InfiniBand而成为主流技术。RoCEv2(RDMA over Converged Ethernet)技术基于UDP协议,对于建设支撑AI应用的高性能无损以太网络变得尤为重要。
无带宽收敛(1:1)的网络架构设计基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)功能的优先队列管理和拥塞管理
以25G网络为例,结合业界主流产品形态,分享AI网络架构设计和实现思路
核心设备全线速高性能转发,核心之间不互联;采用Fabric架构,隔离核心故障,最大程度降低核心故障的影响;三层路由组网,通过ECMP提高冗余度,降低故障风险;TOR上下行收敛比严格实现1:1,通过提高核心设备接口密度扩展单集群服务器规模;应用PFC+ECN功能,实现低延时无损网络。
中小型(集群规模1000台)架构特性:每台TOR采用8*100GE上联8台32口100G BOX交换机,OSPF/BGP组网适用集群规模1000台每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽25Tbps
中型(集群规模2000台)架构特性:每台TOR采用8*100GE上联8台64口100G BOX,OSPF/BGP组网适用集群规模2000台每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽50Tbps
大型(集群规模2台)架构特性:每台TOR采用8*100GE上联4~8台核心(机框式),BGP组网适用集群规模2000~18000台每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽50~450Tbps
超大型(集群规模20000+台)架构特性:单POD集群规模1000~2000台,数据中心集群规模20000+,BGP组网POD内收敛比1:1,单POD集群带宽25Tbps,总集群带宽500Tbps+POD内收敛比和上行带宽根据集群带宽需求灵活配置,适用与非AI应用混合部署
在数据中心网络中,PFC和ECN功能将部署在Leaf和Spine设备上。PFC作用于设备互联端口,通过反压影响上游端口队列的发送速率,而ECN是作用在设备转发过程,最终影响的是数据流的发送方,通过降低某条数据流发送速率规避数据丢包。
AI
数据中心网络架构