标签：结合

如何通过 PageAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM

2026-03-16andy阅读(68)评论(0)

如何通过 PagedAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM 在移动端部署大语言模型（LLM）时，内存压力主要源于 KV Cache。随着对话长度增加，KV Cache 呈线性增长，且传统的连续内存分配方...

2026-02-28andy阅读(111)评论(0)

如何利用 Kubernetes、Istio 与 NVIDIA Triton 构建工业级 AI 推理微服务架构在将 AI 模型从实验室推向生产环境时，开发者往往面临三大挑战：如何高效利用 GPU 资源、如何实现无损的流量切换、以及如何根据实...