通信人家园

标题: 谈谈英伟达的SpectrumX以太网RDMA方案  [查看完整版帖子] [打印本页]

时间:  2024-3-19 15:35
作者: syn_007     标题: 谈谈英伟达的SpectrumX以太网RDMA方案

来源:扎波特的网线钳 zartbot

英伟达对于Infiniband和Ethernet的Spectrum-X定位还是非常清楚的, AI Cloud和AI Factory的最大区别在于多租户规模和训练任务的大小。

640?wx_fmt=png&from=appmsg
因此最近读了一下下面三篇文档,记了一些笔记,分享出来。不想看这么多的直接跳到最后看结论。

1. 关于刚性兑付(Lossless)以太网
这是我经常拿RoCE Lossless开玩笑的一个梗,银行都不搞刚性兑付了,怎么网络还搞?

其实一直有个问题,在多租户环境中,如何基于Lossy Ethernet做到租户隔离,多任务性能隔离?似乎Spectrum-X的解决方案利用SP4交换机+BF3做到了部分,但是很遗憾的是交换网开启了PFC,并且Mellanox强调了Lossless Ethernet的重要性:

640?wx_fmt=png&from=appmsg

但是在2018年IRN论文中《Revisiting Network Support for RDMA》描述的是:

640?wx_fmt=png&from=appmsg

这一点是一个很矛盾的地方,当然我能理解Nvidia在市场策略上希望和Infiniband尽量统一技术栈,但是对于云VPC网络而言,如果Nvidia希望Spectrum-X方案用于AI Cloud的多租户环境,那么势必就要接受Lossy Ethernet,并且其组网规模相对于PFC based Lossless会大很多,并且不会产生PFC导致的拥塞树。

事实上,Mellanox(Nvidia)关于PFC这事的摇摆,本质上是在多路径环境下,当发生丢包了以后,是CC降速还是选择更改路径,这两套算法之间的矛盾,最终选择了打开PFC刚性兑付降低CC难度来实现。

2. 关于多路径和乱序提交
这也是英伟达重要阐述的,即便是在1:1无阻塞的交换网中大象流也会导致长尾,Direct Data Placement(DDP)和Dynamic Load Balancing是正解

640?wx_fmt=png&from=appmsg

这一点上基本上工业界已经达成共识。

3. 关于拥塞控制
英伟达的观点是ECN并不适合生成式AI任务,因为这些数据量太Bursty导致丢包的问题。

640?wx_fmt=png&from=appmsg 640?wx_fmt=png&from=appmsg

关于Busty Traffic有一个图

640?wx_fmt=png&from=appmsg

然后英伟达还写了Deepbuffer交换机无法解决这个问题,解法是需要交换机SP4和网卡BF3进行端网协同。并且英伟达花了很长的篇幅写Deep Buffer这个事情, 背后在diss啥,其实大家都清楚

640?wx_fmt=png&from=appmsg

这一点上关于ECN的结论是正确的, 关于Shallow buffer的结论也是正确的,单是拿延迟去说Deep Buffer交换机不好可能有些不是那么的公允了,并且指向性到某家的某个芯片还是太明显了。事实上最好的解法就是Window Based CC来替代Rate+ECN based CC,这一点相信Nvidia自己也清楚了。毕竟Google Falcon和GPUDirectTCP-X都在那里放着,Swift based CC对交换机buffer的使用,特别是针对incast这样的环境,谁心里都有数。

4. 拥塞控制需要算力
英伟达有一段描述:
640?wx_fmt=png&from=appmsg 640?wx_fmt=png&from=appmsg

这一段话证明了传统的SmartNIC并不适合AI workload,更多的需要DPU来支撑,并且对于CC算法有足够的可编程能力来适应不同的拓扑,这里是特别需要算力的地方。

5. 拓扑亲和性调度
如果将Job放置在同一个机柜性能肯定比放在不同机柜好

640?wx_fmt=png&from=appmsg
640?wx_fmt=png&from=appmsg

如上图左端所示,通过对Job节点的调度基本上可以获得15%以上的收益。但是通过使用多路径的Spectrum-X解决了调度亲和性的难题,为了实现这个功能,需要BF3的算力支持,一旦支持了,收益是非常明显的,扩大了调度域。


6. 多租户性能隔离
一个问题是Performance Isolation, 有Noise neighbor,然后多个job有干扰什么的,还有需要安全隔离等问题

640?wx_fmt=png&from=appmsg

但是在这个问题上,Mellanox似乎有些认知不足呀?现在哪个交换机不都是Shared Buffer的,值得拿出来说么?

640?wx_fmt=png&from=appmsg

另一方面明确了VPC网络实现上的问题

640?wx_fmt=png&from=appmsg

这里明确了VXLAN on Switch 存在ACL/安全组等高级功能缺失,特别是在扩展到万卡集群时。多租户隔离一个是数据面安全隔离,另一个是不同job之间的隔离,防止Noise Neighbor。本质上我们来看是否能够通过拥塞控制算法在端侧做完,尽量保证所有的端对交换机buffer的最小占用,并且在subRTT内相互快速避让,这个事情就解决了。

7.网络失效恢复
大模型训练对Link Failure十分敏感,影响很大

640?wx_fmt=png&from=appmsg

英伟达的解法是在卷交换机上做快速重路由和负载均衡。

其实这也是对多路径和拥塞控制算法考验的一个要点,如果不要交换机,直接在端侧能做到毫秒级收敛并在剩余链路中达到负载均衡的多路径算法该怎么做?都可以仔细思考一下背后的难度。能做到这点才是真正的挑战。

8.对于workload的定义
前面说了这么多问题,来说点好的,英伟达对问题的定义是非常精准的

640?wx_fmt=png&from=appmsg

9. IB和Ethernet的差异化
英伟达的角度来看,IB有更大的Scale,更适合单租户的场景和少量任务超大规模Foundation Model的训练场景。并且还有In-network-Computing(SHARP)的支持能力。这些都是它定义的AI工厂的业务逻辑。

而针对AI Cloud, 基于以太网,VPC多租户的安全隔离和性能隔离,通过AR提高Fabric利用率是关键,这些关键因素决定了在以太网产品线上需要有算力支撑,因此必须要走BlueField的产品线,同时以太网本身的Lossy特性需要通过Lossless和端网协同的技术,要求BF3和SP4交换机配合进行实时的Metering

640?wx_fmt=png&from=appmsg

当然除此之外还有一些FECN BECN的东西,这些几十年前Frame-Relay/ATM上就有,在以太网上搞一套并不难。

640?wx_fmt=png&from=appmsg

事实上基于以太网VPC并池的逻辑,Google GPUDirectTCP-X可以很容易的拿未售卖的2Core实例来构建一个VM做Reduction Server 实现类似于SHARP的功能。另一方面性能隔离BF3和SP4配合的工作可以通过Swift测量RTT配合Window Based congestion controll很好的解决掉, 这样做好了Lossless PFC带来的Scaling的问题也可以解决。因此可以实现一套AI Cloud scaleout to AI Factory的能力。

10. 结论

最后,英伟达说这些性能可以提升1.7x,是真实的,当然不需要这些网卡和交换机,甚至普通的上一代的交换网都能做到,端口利用率还会高于英伟达的这套方案。

640?wx_fmt=png&from=appmsg

多读读文档,多想想背后的逻辑,多动手做点有趣的事情吧~ 接下来就要分析B100/B200/GB200了

640?wx_fmt=png&from=appmsg
640?wx_fmt=png&from=appmsg

很多人对GB200和GH200针对推荐系统场景下的一些问题处理嗤之以鼻。事实上这是一个非常好的平台和大模型真正落地能产生收益的地方。





附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 386.29 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzEwfGY5NDdkMDJifDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 522.52 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzExfDlkZTYxYWRlfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 243.93 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzEyfDczODg5MjIwfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 818.91 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzEzfDg0Yzg2OTg2fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 613.65 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzE0fGExMjdkMjk5fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 411.03 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzE1fDUyZDg2ODE0fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 881.37 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzE2fDZkNmIxOTM3fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 1.19 MB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzE3fDlkYjMwYjI1fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 410.35 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzE4fDRlOTg1MDRhfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 553.55 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzE5fDk2Y2FiMmQyfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 303.48 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzIwfGM3N2FmYTFjfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 290.49 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzIxfDhmNzE0NTg1fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 762.14 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzIyfGY1YzM1OTMwfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 310.05 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzIzfGQ1ZTYwNzE3fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 633.07 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzI0fDIzNjA2ZWIzfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 342.43 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzI1fDI3YjQ1ZjYxfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 390.24 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzI2fDgxODJiNGY1fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 208.3 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzI3fDI0MTAyYjBmfDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 227.56 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzI4fDkzMzI0NTg3fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 238.54 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzI5fDc0NGQ5NDQ2fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 300.39 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzMwfDhmMzdiNDQ5fDE3MzQ5NDIxMDh8MHww

附件: 640?wx_fmt=png&from=appmsg (2024-3-19 15:32, 194.53 KB) / 下载次数 0
https://test.txrjy.com/forum.php?mod=attachment&aid=NjI0NzMxfGMyYjc0YzVhfDE3MzQ5NDIxMDh8MHww
时间:  2024-3-19 17:12
作者: 为别人打工的人


时间:  2024-3-19 17:41
作者: huaweimatex

搬运zartbot 的文章,至少得署名吧

时间:  2024-7-29 18:02
作者: stronglgx

"最后,英伟达说这些性能可以提升1.7x,是真实的,当然不需要这些网卡和交换机,甚至普通的上一代的交换网都能做到,端口利用率还会高于英伟达的这套方案。"
这句话有点牛笔,英伟达的端网协同的AR方案是关键,如果不用他的网卡和交换机,那对于多任务下的拥塞情况是无法避免的,同时带宽利用率也没他的高。所以想请教一下,这点怎么看?




通信人家园 (https://test.txrjy.com/) Powered by C114