首页
行业动态
网络学院
TCP/IP
RDMA
IGP & BGP
技术博客
AI & 大模型
云 & 计算
交换机
SDN
流量控制
拥塞控制
网络拓扑
接口 & 协议
存储
RDMA
网络仿真
运维&管理
顶级会议
SIGCOMM
NSDI
APNet
ICNP
其他论文
关于我们
当前位置:
首页
>
ICNP
> 正文
【ICNP 2021】怒赞!上海交大团队先于谷歌提出光电混合数据中心慢切换方案
ICNP
2023-05-10
16225
更新:2023-05-10 10:52:50
> 最近GPT大语言模型火了,其背后需要强大的数据中心支撑训练和推理产生的巨大网络流量。而传统数据中心Clos架构面对未来日益增长的网络流量需求,需要通过堆叠交换机,或者设计更高级的芯片来支撑高带宽。这两种方法会大幅增加网络功耗和成本,因此设计光电混合数据中心,用高带宽、低功耗的光交换机替换一部分高功耗的电交换机,在不增加网络功耗和成本的前提下提升网络性能,不失为一种更加可行的思路。 SIGCOMM 2022 谷歌的 Jupiter evolving 横空出世,让世界的目光再次投向光电混合数据中心。事实上,早在2021年,上海交大赵世振团队发表于ICNP的论文 (TROD: Evolving From Electrical Data Center to Optical Data Center) 首次提出“慢切换”控制方案 (一作为该团队博士生曹培睿),大幅降低了光电混合数据中心的控制难度,并避免了对快速光交换硬件的依赖。同时,该论文提出的阈值分流路由方案在最大程度上增加了光电混合数据中心面对突发流量的抗性。谷歌的Jupiter evolving论文指出其光电混合数据中心也采用了慢切换方案,并引用了TROD。笔者将从Motivation,Design,Evaluation 和 Conclusion 四个方面简单介绍一下他们的工作TROD。 ## **Motivation: 快速光切换是唯一出路吗?** 光交换机(OCS)具有超低功耗,超大带宽的特性,但因其端口一对一连通,想支持多对多连接需要不断做重配置切换状态(耗时数十毫秒),在十多年前被提出后,一直未被广泛部署于实际数据中心。前人设计的光电混合网络对光交换硬件的切换时延和网络控制器的收敛速度要求极高,难以真正落地。以微软为代表的快切换流派,虽然能将光切换时延缩小到了纳秒级,但依然局限在小型testbed,没能真正量产。在硬件方面,能够商业量产的光交换器件切换时延高、灵活性差。而在软件方面,光电混合数据中心的控制方案还比较不成熟,包括拓扑、路由算法等。为了降低光电混合数据中心的落地难度,TROD提出不依赖快速光切换技术,使用商用OCS结合慢切换控制+阈值分流方案,也能对抗流量突发,保证性能。该整体方案能够大幅降低光电混合数据中心的控制、部署和运维难度,从而降低整个数据中心的成本和功耗。(谷歌2022年在大规模实际数据中心进一步验证了慢切换方案的可行性。)
## **Design: 慢切换如何应对突发?**
物理架构方面,前人的Helios在Clos核心层使用一部分光交换机(OCS)来分担大流而让时延敏感流继续走电交换机(EPS),该方案需要维持双平面控制且难以应对流量突发,导致网络运维人员工作量增加。不同于Helios,如图2所示,TROD将传统Clos架构的核心层电交换机全部替换为了光交换机(OCS),有效降低成本和功耗,但需要去解决流量突发的问题,TROD在慢切换控制中提出阈值分流方案,有效解决了该问题。 TROD分析了一些真实数据中心的历史流量发现,PoD间流量在长期往复相似的范围内波动。TROD利用这种相似性,提出慢切换控制,优化拓扑使其能覆盖这些范围内大部分流量模式。当PoD间的突发流量超出这些范围,TROD就利用中转PoD绕路缓解一部分突发;同时为了不加重网络负担,TROD提出阈值分流路由方案来巧妙地解决流量突发且不增加网络负担,其核心思想是只让超过阈值的流量分到非最短路径。TROD阈值分流方案已经在ofsoftswitch13软件仿真以及现实P4交换机中实现(详见该团队发表于ToN的拓展版论文 Threshold-based Routing-Topology Co-design for Optical Data Center)。另外,笔者认为TROD的阈值分流方案还有一大好处是能够在汇聚层电交换机上分离式地实现,算法和部署难度显著降低;而谷歌路由方案需要依赖集中式控制,其算法难度有所增加。
## **Evaluation** 流完成时间(FCT),特别是流尾部完成时间对用户体验至关重要,因此除了成本和功耗外,TROD做了丰富的实验来评估流尾部完成时间。测试的数据集包含了数据中心常见流量模式,以及突发流量模式。各自对比在TROD论文中有详细讨论,总结来说,TROD对比谷歌最新的Jupiter方案有1.15-2.16倍性能提升;对比其他现有光电混合数据中心,有至少2倍的性能提升;对比expander数据中心,有2.4-3.2倍的性能提升。另外,由于更换了核心层电交换机可以降低成本并且降低跳数,TROD还评估了在OCS层通过α超额配置是否可能使光电混合数据中心网络实现比non-blocking Clos更好的性能。惊喜的是,TROD的仿真结果表明,当α达到1.2时,TROD开始表现出超越non-blocking Clos的性能。相比之下,其他光电混合数据中心方案无论α值为何都无法击败non-blocking Clos,或者需要很大的α值。
## **Conclusion: 光电混合网络后续如何演进?** TROD提出的慢切换控制以及阈值分流路由方案较为科学地在PoD间解决了流量突发问题,并大幅降低光电混合数据中心的控制、部署和运维难度,从而降低整个数据中心的成本和功耗。 同时TROD还提出了光电混合数据中心可能的演进路径如图8所示。笔者关注到,该团队也确实在沿着他们提出的演进路径做更深入的研究。在2022年发表于SIGMETRICS的论文(Understanding the Performance Guarantee of Physical Topology Design for Optical Circuit Switched Data Centers)中,针对如何在光电混合数据中心搭建初期进行容量规划,以及如何设计ToR电交换机与光交换之间的物理拓扑等问题,他们首次提出“竞争比”概念,能够在不知道数据中心流量模式的前提下严格分析光电混合数据中心物理拓扑的性能。2023年,该团队发表于NSDI的论文(Flattened Clos: Designing High-performance Deadlock-free Expander Data Center Networks Using Graph Contraction)运用虚拟up-down路由解决了光电混合网络中使用RDMA产生的死锁问题。有兴趣的读者可进一步跟进。
**参考文献**:Peirui Cao, Shizhen Zhao, Min Yee Teh, Yunzhuo Liu, Xinbing Wang, "TROD: Evolving From Electrical Data Center to Optical Data Center", in ICNP, Dallas, Texas, USA Virtual Event, November, 2021. >
声明:本文素材来源于网络,仅供学习使用,如有侵权请联系网站删除(ngdcn_admin@163.com)。
ICNP
4
赞
本文由 @NGDCN 于2023-05-10发布在 未来网络技术网,如有疑问,请联系我们(ngdcn_admin@163.com)。
上一篇:
【中科院】为什么chiplet需要标准?
下一篇:
【ICNP 2021】基于弱监督学习的ISP自助BGP异常检测
相关文章
【ICNP 2021】基于弱监督学习的ISP自助BGP异常检测
有话要说...
取消回复
ICNP
回复
4
赞
最近发表
【Sigcomm 2023】 Achelous:超大规模云网络中如何实现网络的可编程性、弹性和可靠性
【ICNP 2021】基于弱监督学习的ISP自助BGP异常检测
【ICNP 2021】怒赞!上海交大团队先于谷歌提出光电混合数据中心慢切换方案
【中科院】为什么chiplet需要标准?
一文读懂Dragonfly拓扑
Alibaba高性能通信库ACCL介绍
【微软】MSCCL Github仓库介绍
【英伟达】NCCL Github仓库介绍
【MPI】MPI组和通讯器介绍
【MPI】MPI Reduce和Allreduce函数
热门文章
【Infiniband手册】第9章:传输层
2022-10-27
【推荐】计算机网络顶级会议:快速检索目录
2022-11-07
一文读懂Dragonfly拓扑
2023-02-24
【Sigcomm 2023】 Achelous:超大规模云网络中如何实现网络的可编程性、弹性和可靠性
2023-10-06
Alibaba高性能通信库ACCL介绍
2023-02-21
【ICNP 2021】怒赞!上海交大团队先于谷歌提出光电混合数据中心慢切换方案
2023-05-10
【ICNP 2021】基于弱监督学习的ISP自助BGP异常检测
2023-05-10
【微软】MSCCL Github仓库介绍
2023-02-20
标签列表
PFC
(3)
流量控制
(6)
拥塞控制
(20)
网络拓扑
(8)
RDMA
(42)
TCP/IP
(21)
CXL
(5)
思科
(5)
交换机芯片
(5)
数据中心网络
(11)
英伟达
(5)
Infiniband手册
(8)
NSDI
(12)
SIGCOMM
(22)
华为
(5)
HPCC
(5)
交换机
(8)
数据中心
(4)
RoCE
(7)
存储
(11)
Memory Fabric
(4)
NS3
(8)
超算
(5)
MPI
(10)
集合通信库
(4)
有话要说...