昇腾显存管理黑盒详解:为什么在 NPU 上频繁创建张量会引发严重的内存碎片
如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题 在将模型从 CUDA 迁移到昇腾 NPU(Ascend)时,很多开发者会遇到一个诡异现象:通过 nvidia-smi 类似的工具观察,显存(HBM)占用并没满,但程序却频繁报出 Out...
如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题 在将模型从 CUDA 迁移到昇腾 NPU(Ascend)时,很多开发者会遇到一个诡异现象:通过 nvidia-smi 类似的工具观察,显存(HBM)占用并没满,但程序却频繁报出 Out...
大规模语言模型(LLM)在推理阶段面临的一个核心挑战是如何高效管理巨大的 Key-Value Cache(KV Cache)。KV Cache 存储了Attention机制中K(Key)和V(Value)矩阵的历史记录,对于长序列推理至关重...
在深度学习模型的训练和推理过程中,尤其是在使用PyTorch时,我们经常会遇到一个棘手的问题:明明通过 nvidia-smi 看到显存(GPU Memory)还有剩余,但在尝试分配新的大张量时却报出了 OOM(Out of Memory)错...