标签：读写

ncnn 算子融合黑魔法：手动合并参数以减少模型转换后的无意义内存读写次数

2026-03-01andy阅读(49)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-02-15andy阅读(66)评论(0)

别只知道 FlashAttention 的效果好，理解其背后的原理——解决显存带宽瓶颈——对于优化深度学习模型至关重要。标准 Self-Attention 机制在序列长度 $L$ 较大时，其性能瓶颈并非是计算量（FLOPs），而是显存的读写...

2026-02-13andy阅读(69)评论(0)

在AI模型的推理加速领域，显存带宽往往是性能瓶颈的关键。模型计算图中的许多操作，如卷积（Conv）和随后的激活函数（ReLU），虽然逻辑上是独立的步骤，但在执行时，需要将中间结果从计算单元（如GPU或NPU）写入显存，再由下一个操作读取。这...

2026-02-04andy阅读(116)评论(0)

FlashAttention v1/v2 演进史：它是如何通过减少显存读写让速度飞起来的自Transformer架构诞生以来，Attention机制一直是其核心但也是性能瓶颈所在。当序列长度 $N$ 增大时，标准Attention的计算复...

2026-02-02andy阅读(102)评论(0)

在 AI 模型推理阶段，提升速度的关键往往不在于计算本身的复杂度，而在于数据在存储介质（如GPU HBM）和计算单元（CUDA Core）之间传输的效率。算子融合（Operator Fusion）正是解决这一问题的核心技术，它通过将多个计算...