如何通过手机 NPU 加速 4-bit 模型推理:详解权重预重排(Weight Pre-packing)的必要性
如何通过手机 NPU 加速 4-bit 模型推理:详解权重预重排(Weight Pre-packing)的必要性 在移动端部署大语言模型(LLM)或高性能视觉模型时,4-bit 量化已成为标配。然而,许多开发者发现,仅仅将模型量化为 4-b...
如何通过手机 NPU 加速 4-bit 模型推理:详解权重预重排(Weight Pre-packing)的必要性 在移动端部署大语言模型(LLM)或高性能视觉模型时,4-bit 量化已成为标配。然而,许多开发者发现,仅仅将模型量化为 4-b...
背景 在许多低端安卓设备上,GPU 驱动对 Vulkan 的支持不完善甚至完全缺失,迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度,开发者通常会开启 ncnn 的 FP16 模式,但在执行深度模型或具有全局平均池化(...
什么是 volatile? volatile 是并发编程中一个关键的修饰符,它保证了对共享变量操作的两大特性:可见性(Visibility) 和 有序性(Ordering)。 与 synchronized 锁机制不同,volatile 是一...