标签：kernel

怎样利用离线编译与内核预热（Kernel Warmup）缩短模型首次执行的等待时间

2026-02-17andy阅读(90)评论(0)

在部署深度学习模型，尤其是在边缘设备或对实时性要求极高的服务器上时，用户经常会抱怨模型第一次执行的延迟特别高。这个延迟通常不是模型本身的推理时间，而是由首次执行的初始化开销所导致，包括JIT编译、显存分配、驱动程序加载以及计算内核（Kern...

2026-02-12andy阅读(95)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...