从 Cuda Graph 聊起:如何消除小模型频繁发射 Kernel 带来的驱动层延时
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...