标签：graphs

详解 PyTorch 与 CUDA 图：如何利用 CUDA Graphs 消除小模型推理的 CPU 发射开销

2026-02-02andy阅读(179)评论(0)

在 AI 推理加速领域，人们通常关注 FLOPS 或计算密度，但对于延迟敏感的场景（尤其是使用小型模型或具有许多顺序层的大型模型），CPU 发射（Kernel Launch）开销往往会成为主要的性能瓶颈。每次 PyTorch 调用 GPU ...