推理时的算子融合:为什么合并 LayerNorm 与线性层能让 QPS 提升 30%
在现代大型语言模型(LLMs)和基于 Transformer 架构的模型中,性能优化是提高服务吞吐量(QPS,Queries Per Second)的关键。其中一个最有效的策略是算子融合(Operator Fusion)。本文将深入探讨为什...
在现代大型语言模型(LLMs)和基于 Transformer 架构的模型中,性能优化是提高服务吞吐量(QPS,Queries Per Second)的关键。其中一个最有效的策略是算子融合(Operator Fusion)。本文将深入探讨为什...