标签：重排

如何通过手机 NPU 加速 4-bit 模型推理：详解权重预重排（Weight Pre-packing）的必要性

2026-03-19andy阅读(61)评论(0)

如何通过手机 NPU 加速 4-bit 模型推理：详解权重预重排（Weight Pre-packing）的必要性在移动端部署大语言模型（LLM）或高性能视觉模型时，4-bit 量化已成为标配。然而，许多开发者发现，仅仅将模型量化为 4-b...

2026-03-02andy阅读(100)评论(0)

背景在许多低端安卓设备上，GPU 驱动对 Vulkan 的支持不完善甚至完全缺失，迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度，开发者通常会开启 ncnn 的 FP16 模式，但在执行深度模型或具有全局平均池化（...

2026-02-10andy阅读(174)评论(0)

什么是 volatile？ volatile 是并发编程中一个关键的修饰符，它保证了对共享变量操作的两大特性：可见性（Visibility）和有序性（Ordering）。与 synchronized 锁机制不同，volatile 是一...