标签：gptq

大模型权重 4-bit 量化详解：深度剖析 GPTQ 与 AWQ 算法在移动端的精度权衡

2026-03-14andy阅读(78)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...

2026-02-06andy阅读(117)评论(0)

在将大型语言模型（LLM）部署到资源受限的端侧设备（如手机、边缘计算网关）时，模型量化是提高推理速度和降低内存占用的关键技术。4-bit 量化（如 GPTQ 和 AWQ）因其极高的压缩比而受到广泛关注。然而，这两种流行算法在底层实现和硬件亲...