标签：layernorm

推理时的算子融合：为什么合并 LayerNorm 与线性层能让 QPS 提升 30%

2026-02-03andy阅读(133)评论(0)

在现代大型语言模型（LLMs）和基于 Transformer 架构的模型中，性能优化是提高服务吞吐量（QPS，Queries Per Second）的关键。其中一个最有效的策略是算子融合（Operator Fusion）。本文将深入探讨为什...