标签：黑魔法

端侧 LLM 内存管理黑魔法：如何利用模型权重的分级加载与量化存储实现极致省电

2026-03-17andy阅读(79)评论(0)

如何利用分级加载与量化存储实现端侧 LLM 的极致省电与低内存占用在大模型（LLM）进军手机、平板和边缘网关的趋势下，内存（RAM）和功耗成了最大的绊脚石。一个 Llama-3-8B 模型如果以 FP16 运行需要约 16GB 内存，这足...

2026-03-01andy阅读(88)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-02-08andy阅读(189)评论(0)

在深度学习和高性能计算领域，算子（Kernel）的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化，但它们是通用性的。当面对特定维度、数据类型或计算模式时，通过像 Triton 这样的领域特定...