matmul | 汤不热吧

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧

2026-03-18andy阅读(66)评论(0)

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧在移动端部署深度学习模型时，为了追求极致的推理速度和更小的模型体积，INT8 量化几乎是标配。然而，很多开发者在实际部署时发现，虽然权重变成了 I...