标签：oom

如何通过 PageAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM

2026-03-16andy阅读(63)评论(0)

如何通过 PagedAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM 在移动端部署大语言模型（LLM）时，内存压力主要源于 KV Cache。随着对话长度增加，KV Cache 呈线性增长，且传统的连续内存分配方...

2026-03-12andy阅读(66)评论(0)

如何在 Android 端使用 Memory Mapping (mmap) 技术防止大模型推理引发 OOM 在移动端部署 AI 模型（如 LLM、大参数量 CNN）时，最常见的痛点就是 OOM (Out Of Memory)。传统的加载方式...

2026-02-11andy阅读(117)评论(0)

为什么 Faiss 会 OOM 或崩溃？在生产环境中处理数千万乃至数十亿的向量时，Faiss 索引的内存消耗是一个核心挑战。导致服务器 OOM (Out of Memory) 或索引崩溃的主要原因通常有两个：索引结构选择不当 (Inde...

2026-02-09andy阅读(98)评论(0)

作为一名资深搜索工程师，我们深知 Elasticsearch（ES）集群的稳定性至关重要。内存溢出（OOM）是导致 ES 节点崩溃的常见原因，通常由代价高昂的查询、大型聚合或加载过多字段数据引起。ES 的 Circuit Breaker（熔...

2026-02-02andy阅读(143)评论(0)

梯度检查点（Checkpointing Recomputation）：用时间换空间的终极手段随着深度学习模型规模的爆炸式增长，特别是大型语言模型（LLMs）的出现，训练过程中 GPU 显存不足（OOM, Out Of Memory）成为了...