手写一个简单的 Tiling 策略:演示如何通过 L1/L2 缓存优化矩阵运算的访存局部性。
矩阵乘法(GEMM)是高性能计算中最基础且最核心的操作之一。然而,简单的三层循环实现(ijk顺序)往往效率低下,主要瓶颈在于CPU L1/L2缓存的频繁失效(Cache Miss)。这是因为在默认的行主序(Row-Major)存储中,访问矩...
矩阵乘法(GEMM)是高性能计算中最基础且最核心的操作之一。然而,简单的三层循环实现(ijk顺序)往往效率低下,主要瓶颈在于CPU L1/L2缓存的频繁失效(Cache Miss)。这是因为在默认的行主序(Row-Major)存储中,访问矩...
在大型语言模型(LLM)的推理过程中,通常分为两个关键阶段:Prefill(预填充/处理Prompt)阶段和Decode(解码/自回归生成)阶段。这两个阶段对硬件资源的需求截然不同,理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义:...