标签：聊起

从 Cuda Graph 聊起：如何消除小模型频繁发射 Kernel 带来的驱动层延时

2026-02-12andy阅读(95)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...