标签：端侧

第2页

端侧量化误差溯源详解：为什么在 ncnn 里运行正常的 INT8 模型在 MNN 里会精度崩坏

2026-03-05andy阅读(94)评论(0)

背景在端侧 AI 部署中，INT8 量化是性能优化的必经之路。但开发者常遇到这样的怪事：同一套浮点权重，在 ncnn 下量化后精度尚可，但在 MNN 下却出现预测结果完全不可用的“崩坏”现象。这并非框架本身的 Bug，而是由量化标准实现、...

2026-03-01andy阅读(89)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...

2026-02-28andy阅读(107)评论(0)

如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速：实现边缘 AI 的极致响应在边缘计算领域，瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而，许多开发者发现直接部署模型时，推理速度远达不到预期。这...

2026-02-22andy阅读(109)评论(0)

背景随着《个人信息保护法》等法规的完善，开发者在处理用户数据（如人脸、语音、健康数据）时面临巨大的合规压力。传统的云端训练需要将原始数据上传服务器，这存在严重隐私风险。端侧训练（On-device Learning）技术通过在用户手机本地...

2026-02-16andy阅读(93)评论(0)

MediaPipe 是 Google 开源的一个跨平台、可定制的机器学习框架，它在端侧推理和实时数据流处理方面表现出色。手势识别（如 MediaPipe Hands）是其最经典的用例之一。理解 MediaPipe 如何调度其内部的多任务处理...

2026-02-16andy阅读(155)评论(0)

随着大模型（LLM）的飞速发展，将这些强大的AI能力部署到资源受限的手机等端侧设备上，成为了AI工程化的一大挑战。Llama系列模型虽然效果优秀，但其巨大的参数量和高昂的内存需求，使得直接部署几乎不可能。本文将详细讲解如何通过4-bit量化...

2026-02-15andy阅读(88)评论(0)

在资源受限的端侧设备（如手机、IoT设备）上部署深度学习模型时，模型量化（通常是转换为INT8）是降低延迟和功耗的关键技术。然而，量化方案并非只有一种。本文将对比静态离线量化（Static Post-Training Quantizatio...

2026-02-14andy阅读(91)评论(0)

华为昇腾（Ascend）系列芯片搭载了基于达芬奇（DaVinci）架构的NPU，旨在提供极致的AI推理性能。然而，将PyTorch或TensorFlow训练的模型部署到昇腾NPU上，需要经过严格的图优化和格式转换。本文将聚焦于使用核心工具A...

2026-02-10andy阅读(363)评论(0)

随着大模型的体积不断增长，如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片，特别是最新的M3系列，通过其独特的统一内存架构（Unified Memory Architecture, UMA），为端侧大模型推理...

2026-02-06andy阅读(121)评论(0)

在将大型语言模型（LLM）部署到资源受限的端侧设备（如手机、边缘计算网关）时，模型量化是提高推理速度和降低内存占用的关键技术。4-bit 量化（如 GPTQ 和 AWQ）因其极高的压缩比而受到广泛关注。然而，这两种流行算法在底层实现和硬件亲...