标签：极致

端侧 LLM 内存管理黑魔法：如何利用模型权重的分级加载与量化存储实现极致省电

2026-03-17andy阅读(76)评论(0)

如何利用分级加载与量化存储实现端侧 LLM 的极致省电与低内存占用在大模型（LLM）进军手机、平板和边缘网关的趋势下，内存（RAM）和功耗成了最大的绊脚石。一个 Llama-3-8B 模型如果以 FP16 运行需要约 16GB 内存，这足...

2026-03-11andy阅读(61)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-03-04andy阅读(65)评论(0)

如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调在端侧 AI 场景中，为了保护用户隐私或实现个性化推荐，我们需要在移动端设备上直接对模型进行微调（Fine-tuning）。阿里巴巴开源的 MNN (M...

2026-02-28andy阅读(110)评论(0)

如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速：实现边缘 AI 的极致响应在边缘计算领域，瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而，许多开发者发现直接部署模型时，推理速度远达不到预期。这...