深度学习

车载 SOC 异构计算详解：如何在智能座舱中平衡 CPU、GPU 与 NPU 的算力配比

2026-03-19andy阅读(6)评论(0)

如何在车载SOC中实现异构算力平衡：以NPU与GPU协同推理优化为例在智能座舱开发中，开发者常面临如DMS（驾驶员监控）、OMS（乘员监控）等实时性要求极高的AI任务。单纯依赖NPU往往会因为前后处理（如颜色空间转换、归一化）占用过多CP...

2026-03-19andy阅读(6)评论(0)

在端侧AI部署中，不同厂商的SoC（如高通骁龙的DSP、华为昇腾的NPU、联发科的APU）对不同算子位宽的加速效率截然不同。传统的统一INT8量化往往无法榨干硬件性能。本文将介绍如何利用硬件感知量化搜索（Hardware-Aware Qua...

2026-03-19andy阅读(8)评论(0)

如何通过构建端侧评测流水线解决LLM精度评测盲点：从困惑度（PPL）转向真实体验在移动端部署大语言模型（LLM）时，开发者通常依赖困惑度（Perplexity, PPL）来衡量模型量化（如 INT4, FP8）后的精度损失。然而，许多开发...

2026-03-19andy阅读(8)评论(0)

如何通过手机 NPU 加速 4-bit 模型推理：详解权重预重排（Weight Pre-packing）的必要性在移动端部署大语言模型（LLM）或高性能视觉模型时，4-bit 量化已成为标配。然而，许多开发者发现，仅仅将模型量化为 4-b...

2026-03-18andy阅读(15)评论(0)

前言随着大语言模型（LLM）的普及，将模型部署在手机端（端侧推理）成为了趋势。llama.cpp 作为一个高性能的 C++ 推理库，通过极致的指令集优化和轻量级的 GGUF 格式，让在手机上流畅运行 Llama-3 成为可能。本文将重点介...

2026-03-18andy阅读(10)评论(0)

如何利用信令位（Signaling Bits）优化低比特量化：提升移动端模型数值稳定性在移动端部署 AI 模型时，INT4 甚至 INT2 量化是减少内存带宽和提升推理速度的利器。然而，低比特量化面临最大的挑战是数值稳定性。当权重或激活值...

2026-03-18andy阅读(10)评论(0)

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧在移动端部署深度学习模型时，为了追求极致的推理速度和更小的模型体积，INT8 量化几乎是标配。然而，很多开发者在实际部署时发现，虽然权重变成了 I...

2026-03-18andy阅读(13)评论(0)

如何利用 Apple AMX 指令集实现 4-bit 量化 LLM 的端侧加速随着端侧大语言模型（LLM）的普及，如何在 iPhone 或 Mac 上实现毫秒级的响应速度成为了开发者面临的巨大挑战。Apple 的 A 系列及 M 系列芯片...

2026-03-17andy阅读(12)评论(0)

前言在安卓端侧部署大语言模型（LLM）时，内存带宽往往是最大的瓶颈。4-bit 量化（INT4）可以将权重体积减少 75%，但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16，会产生额外的显存读写开销。本文将教你如何编...

2026-03-17andy阅读(28)评论(0)

如何利用 ARM i8mm 指令集加速端侧量化模型推理在端侧 AI 推理（如手机、嵌入式设备）中，Int8 量化是提升性能、降低能耗的核心技术。传统的 ARM NEON 指令集虽有 SDOT (点乘) 指令，但在处理大规模矩阵乘法时仍显吃...