标签：关键

如何通过 SmoothQuant 解决激活值离群点难题：实现端侧 LLM 全量化推理的关键

2026-03-14andy阅读(34)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...

2026-02-17andy阅读(80)评论(0)

对于追求极致性能的端侧 AI 应用来说，找到模型推理的性能瓶颈是加速优化的第一步。我们通常结合使用静态分析工具 (Netron) 和动态分析工具 (系统 Profiler) 来实现这一目标。 Netron 帮助我们理解模型的结构和计算流，而...

2026-02-14andy阅读(74)评论(0)

引言：为什么形式化验证对AI基础设施至关重要随着AI模型被部署到自动驾驶、医疗诊断和关键基础设施管理等安全敏感领域，仅依靠传统的测试集准确率已远远不够。我们必须能够证明模型在面对预期外的输入或对抗性扰动时，仍然能够保持预期的安全属性（例如...

2026-02-07andy阅读(98)评论(0)

在深度学习模型部署到边缘设备或服务器时，模型量化（如 INT8）是提高推理速度和降低内存占用的关键技术。然而，对于大型语言模型（LLM）和现代 Transformer 架构，直接使用传统的后训练量化（PTQ）方法往往会导致显著的精度下降，甚...