标签：带宽

怎样通过 MUSA 集群进行大模型分布式训练：详解多卡互联下的物理拓扑与带宽优化

2026-02-25andy阅读(72)评论(0)

如何通过 MUSA 集群进行大模型分布式训练：详解多卡互联与带宽优化随着国产算力的崛起，摩尔线程（Moore Threads）的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下，如何充分利用 MT-Link 互联技术并优化通信...

2026-02-16andy阅读(74)评论(0)

在高性能计算（HPC）领域，理解何时工作负载受限于计算能力（Compute Bound）或内存带宽（Memory Bound）至关重要。这通常通过“屋顶线模型”（Roofline Model）来分析。对于矩阵乘法（GEMM）任务，我们希望...

2026-02-12andy阅读(110)评论(0)

详解神经网络权重的聚类压缩算法：如何利用 Codebook 降低移动端内存带宽压力在移动端和边缘设备上部署深度学习模型时，模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化（如INT8）可以压缩数据，但聚类压缩提供了一种更为灵活且...

2026-02-08andy阅读(83)评论(0)

在深度学习，尤其是大型语言模型（LLM）的面试中，这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型，在推理（Inference）阶段，计算瓶颈确实往往落在存储带宽（Me...

2026-01-31andy阅读(108)评论(0)

在构建高性能AI训练服务器，尤其是涉及大型语言模型（LLM）或多模态模型的训练时，GPU之间的通信带宽往往成为整体性能的瓶颈。忽视互联技术（Interconnect）的选择，是许多开发者在组装硬件时常犯的“大坑”。本文将深入比较NVLink...

2026-01-30andy阅读(150)评论(0)

高通骁龙8295（通常集成在Snapdragon Cockpit平台）是为高性能AI计算设计的SoC，尤其擅长处理大模型（LLMs, Vison Transformers）推理任务。其核心优势在于集成的Hexagon NPU/DSP，但要充...

2026-01-29andy阅读(139)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...

2025-12-21andy阅读(160)评论(0)

很多个人站长在使用 VPS 或公有云虚拟机时，都会遇到一个令人困惑的问题：服务商宣传机器拥有“100Mbps 端口”或“峰值 100M 带宽”，但实际使用下载或上传速度却远低于预期，比如只有 20Mbps。这并非主机商在故意欺骗，而是因为你...

2025-11-30andy阅读(299)评论(0)

大规模深度学习（LLM、视觉模型）的训练已经从单卡扩展到数千张GPU的集群。在这一规模下，网络通信而非计算速度，往往成为系统性能的决定性瓶颈。选择正确的网络拓扑对于优化All-Reduce等集体通信操作至关重要。本文将深入比较两种最流行的...