标签：l

手写一个简单的 Tiling 策略：演示如何通过 L1/L2 缓存优化矩阵运算的访存局部性。

2026-02-16andy阅读(126)评论(0)

矩阵乘法（GEMM）是高性能计算中最基础且最核心的操作之一。然而，简单的三层循环实现（ijk顺序）往往效率低下，主要瓶颈在于CPU L1/L2缓存的频繁失效（Cache Miss）。这是因为在默认的行主序（Row-Major）存储中，访问矩...

2025-12-23andy阅读(239)评论(0)

在构建大规模向量数据库（如使用Faiss或Milvus）时，选择合适的相似性度量标准至关重要。常见的度量包括内积（Inner Product, IP）和欧氏距离（L2 Distance）。当向量被归一化（即其L2范数等于1）时，IP和L2距...