标签：剖析

大模型权重 4-bit 量化详解：深度剖析 GPTQ 与 AWQ 算法在移动端的精度权衡

2026-03-14andy阅读(8)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...

2026-02-03andy阅读(79)评论(0)

BatchNorm (批量归一化) 是深度学习模型中提高训练效率和稳定性的关键组件。然而，它也常常是导致训练和推理行为不一致的“陷阱”之一。大多数PyTorch用户都知道，在推理时需要调用 model.eval()。但为什么这一操作在某些...

2026-01-29andy阅读(107)评论(0)

Docker 作为容器技术的基石，解决了应用打包和环境隔离的难题。然而，当应用进入生产环境，对稳定性、伸缩性和可管理性提出要求时，仅靠 Docker CLI 或 Docker Compose 就显得力不从心。这就是为什么 Docker 之后...