标签：消除

从 Cuda Graph 聊起：如何消除小模型频繁发射 Kernel 带来的驱动层延时

2026-02-12andy阅读(83)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...

2026-02-12andy阅读(74)评论(0)

在将深度学习模型部署到移动端或嵌入式设备时，模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型，在计算图中包含大量冗余节点、不必要的初始化器（Initializers）或可合并的常量操作（如S...

2026-02-02andy阅读(128)评论(0)

在 AI 推理加速领域，人们通常关注 FLOPS 或计算密度，但对于延迟敏感的场景（尤其是使用小型模型或具有许多顺序层的大型模型），CPU 发射（Kernel Launch）开销往往会成为主要的性能瓶颈。每次 PyTorch 调用 GPU ...

2026-01-31andy阅读(95)评论(0)

为什么 ZeRO-3 能让单卡跑起“塞不下”的模型？随着大语言模型（LLM）的尺寸不断膨胀，GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型（如GPT-3），即使使用混合精度（FP16/BF16），仅参数、梯度和优化器状...