标签：量化

如何通过 SmoothQuant 解决激活值离群点难题：实现端侧 LLM 全量化推理的关键

2026-03-14andy阅读(7)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...

2026-03-14andy阅读(8)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...

2026-03-09andy阅读(37)评论(0)

如何通过自动化指标监控系统精准量化 MLOps 的实施效益在企业推进 AI 产业化的过程中，“MLOps 到底带来了多少价值”往往是管理层关注的核心问题。单纯的技术感悟不足以支撑预算申请，我们需要一套量化的评估体系。本文将借鉴 DevOp...

2026-02-26andy阅读(64)评论(0)

1. 背景：为什么相同的量化模型在不同芯片上精度不同？在国产化适配过程中，开发者常遇到一个困惑：在 PyTorch 下验证良好的 INT8 量化模型，部署到昇腾（Ascend）、寒武纪（Cambricon）或昆仑芯（KunlunCore）...

2026-02-16andy阅读(100)评论(0)

随着大模型（LLM）的飞速发展，将这些强大的AI能力部署到资源受限的手机等端侧设备上，成为了AI工程化的一大挑战。Llama系列模型虽然效果优秀，但其巨大的参数量和高昂的内存需求，使得直接部署几乎不可能。本文将详细讲解如何通过4-bit量化...

2026-02-15andy阅读(64)评论(0)

在资源受限的端侧设备（如手机、IoT设备）上部署深度学习模型时，模型量化（通常是转换为INT8）是降低延迟和功耗的关键技术。然而，量化方案并非只有一种。本文将对比静态离线量化（Static Post-Training Quantizatio...

2026-02-12andy阅读(126)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-11andy阅读(77)评论(0)

混合精度（Mixed Precision）量化是解决端侧AI模型部署中“精度损失”与“推理加速”矛盾的核心策略。当我们对整个模型进行激进的INT8量化时，通常会发现少数几个关键层（如Attention机制中的线性层、Softmax输入层或模...

2026-02-11andy阅读(90)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-09andy阅读(77)评论(0)

如何通过 tf.lite.Optimize 实现权重量化：让你的模型在移动端实现 4 倍压缩 1. 为什么需要权重量化？在将深度学习模型部署到资源受限的移动设备（如手机、IoT设备）时，模型的体积和推理速度是关键瓶颈。标准的深度学习模型（...