标签：首词

怎样优化大模型首词延迟（First Token Latency）：详解预填充阶段的量化加速技巧

2026-03-17andy阅读(78)评论(0)

如何优化大模型首词延迟：详解预填充阶段的量化加速技巧在大语言模型（LLM）的部署实践中，首词延迟（Time to First Token, TTFT）是影响用户交互体验的核心指标。当用户输入较长的 Prompt 时，模型需要经历一个漫长的...

2026-02-02andy阅读(128)评论(0)

大型语言模型（LLM）在生成文本时采用自回归（Autoregressive）方式，即逐词生成。虽然这种方式保证了生成内容的连贯性，但也带来了严重的性能挑战，尤其是在长序列生成时。核心问题在于Transformer模型中的自注意力（Self-...