在大规模集群中,如何利用“拓扑感知调度”减少跨交换机的通信开销?
在大规模数据中心集群中,网络拓扑通常采用多级架构(如Fat-Tree或Spine-Leaf),跨越不同交换机(尤其是跨越核心交换机)的通信,相比同一交换机下的通信,往往具有更高的延迟和更大的带宽开销。对于需要高频、低延迟通信的应用(如分布式...
在大规模数据中心集群中,网络拓扑通常采用多级架构(如Fat-Tree或Spine-Leaf),跨越不同交换机(尤其是跨越核心交换机)的通信,相比同一交换机下的通信,往往具有更高的延迟和更大的带宽开销。对于需要高频、低延迟通信的应用(如分布式...
FlashAttention v1/v2 演进史:它是如何通过减少显存读写让速度飞起来的 自Transformer架构诞生以来,Attention机制一直是其核心但也是性能瓶颈所在。当序列长度 $N$ 增大时,标准Attention的计算复...