从 Cuda Graph 聊起:如何消除小模型频繁发射 Kernel 带来的驱动层延时
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在日常的软件开发工作中,我们经常需要在两个分支之间来回切换,比如在主分支(main)上快速修复一个Bug,然后立即切换回正在开发的特性分支(feature-X)。手动输入完整的或复制粘贴分支名称不仅效率低下,还容易出错。 Git 提供了一个...