标签：latency

怎样优化大模型首词延迟（First Token Latency）：详解预填充阶段的量化加速技巧

2026-03-17andy阅读(49)评论(0)

如何优化大模型首词延迟：详解预填充阶段的量化加速技巧在大语言模型（LLM）的部署实践中，首词延迟（Time to First Token, TTFT）是影响用户交互体验的核心指标。当用户输入较长的 Prompt 时，模型需要经历一个漫长的...

2026-03-06andy阅读(67)评论(0)

如何利用 sysdump 剖析 CPU 降频对端侧推理性能的致命影响在移动端部署深度学习模型（如使用 ncnn, MNN 或 TFLite）时，开发者经常遇到一个诡异的问题：同样的模型，在实验室测试时推理耗时非常稳定（如 30ms），但集...