端侧 LLM 内存管理黑魔法:如何利用模型权重的分级加载与量化存储实现极致省电
如何利用分级加载与量化存储实现端侧 LLM 的极致省电与低内存占用 在大模型(LLM)进军手机、平板和边缘网关的趋势下,内存(RAM)和功耗成了最大的绊脚石。一个 Llama-3-8B 模型如果以 FP16 运行需要约 16GB 内存,这足...
如何利用分级加载与量化存储实现端侧 LLM 的极致省电与低内存占用 在大模型(LLM)进军手机、平板和边缘网关的趋势下,内存(RAM)和功耗成了最大的绊脚石。一个 Llama-3-8B 模型如果以 FP16 运行需要约 16GB 内存,这足...
如何通过 ncnn 算子融合黑魔法减少推理时的内存读写 在端侧推理优化中,算力往往不是唯一的瓶颈,内存带宽(Memory Bandwidth)才是。在 ncnn 推理框架中,虽然 ncnnoptimize 工具已经能自动处理大部分算子融合(...
在深度学习和高性能计算领域,算子(Kernel)的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化,但它们是通用性的。当面对特定维度、数据类型或计算模式时,通过像 Triton 这样的领域特定...