张量并行 TP 实战:为什么 Transformer 的 MLP 层最适合横向切分
张量并行(Tensor Parallelism, TP)是大型语言模型(LLMs)训练和推理中必不可少的优化技术,它通过在不同设备(如GPU)上切分模型的权重张量来扩展计算能力。在Transformer架构中,Attention层和MLP层...
张量并行(Tensor Parallelism, TP)是大型语言模型(LLMs)训练和推理中必不可少的优化技术,它通过在不同设备(如GPU)上切分模型的权重张量来扩展计算能力。在Transformer架构中,Attention层和MLP层...