标签：cpp

llama.cpp 移动端移植详解：从 GGUF 格式看如何通过多线程优化实现 10 tokens/s

2026-03-18andy阅读(132)评论(0)

前言随着大语言模型（LLM）的普及，将模型部署在手机端（端侧推理）成为了趋势。llama.cpp 作为一个高性能的 C++ 推理库，通过极致的指令集优化和轻量级的 GGUF 格式，让在手机上流畅运行 Llama-3 成为可能。本文将重点介...

2026-03-02andy阅读(81)评论(0)

如何通过反汇编 ncnn 的 gemm.cpp 快速上手 ARM NEON 汇编优化在移动端推理框架 ncnn 中，卷积和矩阵乘法（GEMM）的性能核心在于 ARM NEON 汇编。对于初学者来说，直接从头编写汇编指令非常困难。本文将介绍...