如何通过算子融合减少解量化开销:详解在移动端将 Dequant 与 MatMul 合并的技巧
如何通过算子融合减少解量化开销:详解在移动端将 Dequant 与 MatMul 合并的技巧 在移动端部署深度学习模型时,为了追求极致的推理速度和更小的模型体积,INT8 量化几乎是标配。然而,很多开发者在实际部署时发现,虽然权重变成了 I...
如何通过算子融合减少解量化开销:详解在移动端将 Dequant 与 MatMul 合并的技巧 在移动端部署深度学习模型时,为了追求极致的推理速度和更小的模型体积,INT8 量化几乎是标配。然而,很多开发者在实际部署时发现,虽然权重变成了 I...