标签：bit

大模型权重 4-bit 量化详解：深度剖析 GPTQ 与 AWQ 算法在移动端的精度权衡

2026-03-14andy阅读(8)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...

2026-02-16andy阅读(100)评论(0)

随着大模型（LLM）的飞速发展，将这些强大的AI能力部署到资源受限的手机等端侧设备上，成为了AI工程化的一大挑战。Llama系列模型虽然效果优秀，但其巨大的参数量和高昂的内存需求，使得直接部署几乎不可能。本文将详细讲解如何通过4-bit量化...

2026-02-14andy阅读(66)评论(0)

在深度学习模型训练过程中，Checkpoint（检查点）是至关重要的，它记录了模型权重、优化器状态、学习率调度器状态等，用于断点续训。面试官提出的“比特翻转”问题，指的是硬件故障（如内存、磁盘或传输中的电磁干扰）导致数据中的单个或多个位发生...

2026-02-06andy阅读(86)评论(0)

在将大型语言模型（LLM）部署到资源受限的端侧设备（如手机、边缘计算网关）时，模型量化是提高推理速度和降低内存占用的关键技术。4-bit 量化（如 GPTQ 和 AWQ）因其极高的压缩比而受到广泛关注。然而，这两种流行算法在底层实现和硬件亲...

2026-02-02andy阅读(125)评论(0)

在汽车电子和智能座舱领域，集成大型语言模型（LLM）以提供自然语言交互的智能管家服务是趋势。然而，车载芯片（如高通SA8155或英伟达Orin等）虽然算力强大，但在内存（RAM/VRAM）方面相对桌面级或服务器级GPU资源有限。一个7B参数...