详解 MUSA 运行时的显存超发机制:如何在显存有限的情况下通过 Swap 策略跑通大模型
如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题 在国产 GPU 适配的过程中,显存不足(OOM, Out of Memory)是运行大规模语言模型(LLM)时最常见的痛点。摩尔线程(Moore Threads)的 M...
如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题 在国产 GPU 适配的过程中,显存不足(OOM, Out of Memory)是运行大规模语言模型(LLM)时最常见的痛点。摩尔线程(Moore Threads)的 M...