标签：填充

怎样优化大模型首词延迟（First Token Latency）：详解预填充阶段的量化加速技巧

2026-03-17andy阅读(86)评论(0)

如何优化大模型首词延迟：详解预填充阶段的量化加速技巧在大语言模型（LLM）的部署实践中，首词延迟（Time to First Token, TTFT）是影响用户交互体验的核心指标。当用户输入较长的 Prompt 时，模型需要经历一个漫长的...

2026-02-04andy阅读(139)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...