标签：指令集

详解 Apple A 系列芯片的 4-bit 量化支持：利用 AMX 矩阵指令集实现 LLM 秒开

2026-03-18andy阅读(39)评论(0)

如何利用 Apple AMX 指令集实现 4-bit 量化 LLM 的端侧加速随着端侧大语言模型（LLM）的普及，如何在 iPhone 或 Mac 上实现毫秒级的响应速度成为了开发者面临的巨大挑战。Apple 的 A 系列及 M 系列芯片...

2026-03-17andy阅读(50)评论(0)

如何利用 ARM i8mm 指令集加速端侧量化模型推理在端侧 AI 推理（如手机、嵌入式设备）中，Int8 量化是提升性能、降低能耗的核心技术。传统的 ARM NEON 指令集虽有 SDOT (点乘) 指令，但在处理大规模矩阵乘法时仍显吃...

2026-03-12andy阅读(44)评论(0)

1. 为什么我们需要矢量化？在 Android 端侧推理（如 NCNN、MNN、TFLite）中，算子性能是核心。传统的标量计算（Scalar）一次只能处理一个数据，而 SIMD（Single Instruction Multiple D...

2026-03-10andy阅读(40)评论(0)

为什么选择 FP16？在移动端 AI 推理中，内存带宽和功耗通常是最大的性能瓶颈。相比传统的 FP32（单精度浮点），FP16（半精度浮点）不仅能减少 50% 的模型内存占用和带宽需求，还能在支持 ARMv8.2-A 指令集的 CPU 上...

2026-03-05andy阅读(53)评论(0)

1. 为什么 INT8 是端侧推理的王道？在移动端部署 AI 模型时，INT8 量化几乎是必选项。它能将模型体积缩小 4 倍，且在拥有硬件加速的芯片上，推理速度可提升数倍。而这种「质变」的底层核心，正是 ARMv8.2-A 引入的 Dot...

2026-02-12andy阅读(92)评论(0)

循环分块（Loop Tiling），也称为循环阻塞（Loop Blocking），是高性能计算中优化内存局部性（Temporal and Spatial Locality）的关键技术。通过将大型计算任务分解为可放入缓存（Cache）的小块，...