标签：演进

FlashAttention v1/v2/v3 演进史：它是如何通过减少显存读写让速度飞起来的

2026-02-04andy阅读(66)评论(0)

FlashAttention v1/v2 演进史：它是如何通过减少显存读写让速度飞起来的自Transformer架构诞生以来，Attention机制一直是其核心但也是性能瓶颈所在。当序列长度 $N$ 增大时，标准Attention的计算复...

2026-01-31andy阅读(73)评论(0)

计算机体系结构中有一个长期存在的瓶颈，称为“内存墙”（Memory Wall）。它描述了处理器速度增长（基于摩尔定律）远快于内存访问速度和带宽增长的现象。对于传统的CPU计算任务，这早已是性能限制因素；而对于今天的大型语言模型（LLMs），...