标签：内存

如何通过 PageAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM

2026-03-16andy阅读(5)评论(0)

如何通过 PagedAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM 在移动端部署大语言模型（LLM）时，内存压力主要源于 KV Cache。随着对话长度增加，KV Cache 呈线性增长，且传统的连续内存分配方...

2026-03-13andy阅读(24)评论(0)

如何利用 ASan 与 HWAsan 精准定位 Android 端侧推理引擎的内存损坏在开发基于 ncnn、MNN 或 TFLite 等框架的 Android 端侧推理引擎时，由于涉及大量 C++ 原始指针操作、高性能内存池管理以及复杂的...

2026-03-12andy阅读(23)评论(0)

如何在 Android 端使用 Memory Mapping (mmap) 技术防止大模型推理引发 OOM 在移动端部署 AI 模型（如 LLM、大参数量 CNN）时，最常见的痛点就是 OOM (Out Of Memory)。传统的加载方式...

2026-03-11andy阅读(24)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-03-10andy阅读(23)评论(0)

背景在 Android 端侧 AI 推理场景中，模型输入往往来自于相机预览流或图像处理器。传统的做法是将数据从 Vendor 进程拷贝到 App 进程，再拷贝给推理引擎。对于 4K 图像或高频推理任务，这种 memcpy 会显著增加延迟并...

2026-03-07andy阅读(48)评论(0)

在端侧 AI 安全领域，TEE（可信执行环境，如 ARM TrustZone）是保护模型资产的核心手段。然而，开发者面临一个物理上的‘死结’：TEE 的 Secure RAM 通常被硬件锁定在 64MB-128MB 以内，而如今即便是一个轻...

2026-03-06andy阅读(54)评论(0)

如何通过共享内存实现多进程模型权重共享：大幅降低 App 内存占用在端侧推理或高并发 Web 服务场景中，为了提升吞吐量，我们常会启动多个进程并行处理推理请求。然而，如果每个进程都独立加载一份模型（例如一个 2GB 的 BERT 模型），...

2026-03-01andy阅读(50)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-03-01andy阅读(58)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...

2026-03-01andy阅读(48)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...