标签：硬件

第2页

模型剪枝真的有用吗？深度探讨稀疏化矩阵运算在现有硬件上的尴尬境地

2026-02-07andy阅读(116)评论(0)

模型剪枝（Pruning）作为一种重要的模型压缩技术，其核心思想是移除神经网络中不重要的权重，从而减小模型体积并理论上降低计算量（FLOPs）。然而，在实践中，尤其是部署到通用CPU或GPU上时，我们往往发现剪枝带来的FLOPs减少并未等比...

2026-02-06andy阅读(116)评论(0)

在将大型语言模型（LLM）部署到资源受限的端侧设备（如手机、边缘计算网关）时，模型量化是提高推理速度和降低内存占用的关键技术。4-bit 量化（如 GPTQ 和 AWQ）因其极高的压缩比而受到广泛关注。然而，这两种流行算法在底层实现和硬件亲...