标签：arm

ARM 架构 i8mm 指令集详解：如何利用矩阵乘法扩展指令大幅提速端侧量化推理

2026-03-17andy阅读(91)评论(0)

如何利用 ARM i8mm 指令集加速端侧量化模型推理在端侧 AI 推理（如手机、嵌入式设备）中，Int8 量化是提升性能、降低能耗的核心技术。传统的 ARM NEON 指令集虽有 SDOT (点乘) 指令，但在处理大规模矩阵乘法时仍显吃...

2026-03-05andy阅读(89)评论(0)

1. 为什么 INT8 是端侧推理的王道？在移动端部署 AI 模型时，INT8 量化几乎是必选项。它能将模型体积缩小 4 倍，且在拥有硬件加速的芯片上，推理速度可提升数倍。而这种「质变」的底层核心，正是 ARMv8.2-A 引入的 Dot...

2026-03-02andy阅读(81)评论(0)

如何通过反汇编 ncnn 的 gemm.cpp 快速上手 ARM NEON 汇编优化在移动端推理框架 ncnn 中，卷积和矩阵乘法（GEMM）的性能核心在于 ARM NEON 汇编。对于初学者来说，直接从头编写汇编指令非常困难。本文将介绍...

2026-02-10andy阅读(212)评论(0)

引言：为什么需要 TrustZone 保护人脸识别？人脸识别（Face Recognition）技术已广泛应用于手机解锁、支付认证等场景。然而，用户的人脸模板数据是高度敏感的生物特征信息。如果这些模板存储在普通的操作系统（Normal W...

2025-11-19andy阅读(239)评论(0)

在部署AI模型和构建基础设施时，我们经常需要在特定的硬件架构（如ARM64）上安装复杂的依赖项。如果遇到类似“无法下载 https://mirrors.aliyun.com/ubuntu/dists/plucky/main/binary-a...

2025-11-18andy阅读(244)评论(0)

在AI模型部署领域，将模型从x86服务器迁移到低功耗的ARM64（AArch64）边缘设备（如NVIDIA Jetson系列或树莓派）是常见的需求。虽然通常可以使用预编译的包，但为了最大限度地利用ARM架构的特定优化指令集（如NEON），我...