标签：维度

别只知道 FlashAttention：带你算算 Attention 算子在不同 QKV 维度下的显存读写比例。

2026-02-15andy阅读(94)评论(0)

别只知道 FlashAttention 的效果好，理解其背后的原理——解决显存带宽瓶颈——对于优化深度学习模型至关重要。标准 Self-Attention 机制在序列长度 $L$ 较大时，其性能瓶颈并非是计算量（FLOPs），而是显存的读写...

2026-02-06andy阅读(130)评论(0)

在构建灵活的深度学习模型时，我们经常需要创建自定义 Layer（层）或 Model（模型）。然而，这些自定义组件内部的权重（例如，全连接层中的 W 矩阵）往往依赖于输入数据的特征维度。如果我们在 Layer 的 __init__ 方法中就尝...

2025-12-25andy阅读(452)评论(0)

随着大模型和高级嵌入模型的普及，例如从使用 768 维度的 text-embedding-ada-002 转向 1536 维度甚至更高的模型，AI 基础设施工程师面临一个核心挑战：向量维度（D）的增加对检索性能的影响是否是线性的？本文将深...