标签：安卓端

怎样在安卓端利用 Vulkan 编写 4-bit 专用算子：直接在 GPU 上进行解量化与计算融合

2026-03-17andy阅读(55)评论(0)

前言在安卓端侧部署大语言模型（LLM）时，内存带宽往往是最大的瓶颈。4-bit 量化（INT4）可以将权重体积减少 75%，但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16，会产生额外的显存读写开销。本文将教你如何编...

2026-03-12andy阅读(73)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...