自动化算子微调:利用 OpenTuner 寻找硬件指令集下的最佳分块(Tiling)参数
循环分块(Loop Tiling),也称为循环阻塞(Loop Blocking),是高性能计算中优化内存局部性(Temporal and Spatial Locality)的关键技术。通过将大型计算任务分解为可放入缓存(Cache)的小块,...
循环分块(Loop Tiling),也称为循环阻塞(Loop Blocking),是高性能计算中优化内存局部性(Temporal and Spatial Locality)的关键技术。通过将大型计算任务分解为可放入缓存(Cache)的小块,...