怎样在安卓端利用 Vulkan 编写 4-bit 专用算子:直接在 GPU 上进行解量化与计算融合
前言 在安卓端侧部署大语言模型(LLM)时,内存带宽往往是最大的瓶颈。4-bit 量化(INT4)可以将权重体积减少 75%,但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16,会产生额外的显存读写开销。 本文将教你如何编...
前言 在安卓端侧部署大语言模型(LLM)时,内存带宽往往是最大的瓶颈。4-bit 量化(INT4)可以将权重体积减少 75%,但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16,会产生额外的显存读写开销。 本文将教你如何编...