怎样在安卓端利用 Vulkan 编写 4-bit 专用算子:直接在 GPU 上进行解量化与计算融合
前言 在安卓端侧部署大语言模型(LLM)时,内存带宽往往是最大的瓶颈。4-bit 量化(INT4)可以将权重体积减少 75%,但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16,会产生额外的显存读写开销。 本文将教你如何编...
前言 在安卓端侧部署大语言模型(LLM)时,内存带宽往往是最大的瓶颈。4-bit 量化(INT4)可以将权重体积减少 75%,但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16,会产生额外的显存读写开销。 本文将教你如何编...
如何解决安卓多模型部署时的显存瓶颈:详解权重复用与Backbone共享技巧 在安卓移动端部署 AI 能力时,开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时,如果每个模型都包含独立的骨干网络(Bac...