标签：量化

第3页

如何针对特定移动端 NPU 优化量化参数：详解对称量化与非对称量化的性能差异

2026-02-12andy阅读(206)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-11andy阅读(114)评论(0)

混合精度（Mixed Precision）量化是解决端侧AI模型部署中“精度损失”与“推理加速”矛盾的核心策略。当我们对整个模型进行激进的INT8量化时，通常会发现少数几个关键层（如Attention机制中的线性层、Softmax输入层或模...

2026-02-11andy阅读(140)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-09andy阅读(107)评论(0)

如何通过 tf.lite.Optimize 实现权重量化：让你的模型在移动端实现 4 倍压缩 1. 为什么需要权重量化？在将深度学习模型部署到资源受限的移动设备（如手机、IoT设备）时，模型的体积和推理速度是关键瓶颈。标准的深度学习模型（...

2026-02-09andy阅读(118)评论(0)

在复杂的AI模型部署环境中，模型漂移（Model Drift）、数据偏移（Data Skew）或恶意攻击都可能导致灾难性的业务后果。建立一个有效的AI安全“保险”机制，核心在于将抽象的风险转化为可量化的、可实时监控的指标，并基于此指标触发自...

2026-02-07andy阅读(130)评论(0)

在深度学习模型部署到边缘设备或服务器时，模型量化（如 INT8）是提高推理速度和降低内存占用的关键技术。然而，对于大型语言模型（LLM）和现代 Transformer 架构，直接使用传统的后训练量化（PTQ）方法往往会导致显著的精度下降，甚...

2026-02-06andy阅读(121)评论(0)

在将大型语言模型（LLM）部署到资源受限的端侧设备（如手机、边缘计算网关）时，模型量化是提高推理速度和降低内存占用的关键技术。4-bit 量化（如 GPTQ 和 AWQ）因其极高的压缩比而受到广泛关注。然而，这两种流行算法在底层实现和硬件亲...

2026-02-06andy阅读(186)评论(0)

模型量化是将模型权重和激活值从高精度浮点数（如FP32）转换为低精度定点整数（如INT8）的过程，以减少模型大小和计算延迟。在面试中，理解均匀量化（Uniform Quantization）的基础知识，特别是如何计算 Scale ($S$)...

2026-02-06andy阅读(117)评论(0)

在处理数百万甚至数十亿规模的向量数据时，内存消耗往往是最大的瓶颈之一。Faiss 提供了多种索引结构来应对这一挑战，其中，标量量化（Scalar Quantization, SQ）是一种非常高效且易于实现的方法，尤其是 8 位标量量化（SQ...

2026-02-02andy阅读(205)评论(0)

在汽车电子和智能座舱领域，集成大型语言模型（LLM）以提供自然语言交互的智能管家服务是趋势。然而，车载芯片（如高通SA8155或英伟达Orin等）虽然算力强大，但在内存（RAM/VRAM）方面相对桌面级或服务器级GPU资源有限。一个7B参数...