底层黑魔法:怎样通过 Triton 或 TVM 编写一个比厂商原生库更快的算子?
在深度学习和高性能计算领域,算子(Kernel)的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化,但它们是通用性的。当面对特定维度、数据类型或计算模式时,通过像 Triton 这样的领域特定...
在深度学习和高性能计算领域,算子(Kernel)的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化,但它们是通用性的。当面对特定维度、数据类型或计算模式时,通过像 Triton 这样的领域特定...