标签：激活

如何通过 SmoothQuant 解决激活值离群点难题：实现端侧 LLM 全量化推理的关键

2026-03-14andy阅读(34)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...

2026-03-06andy阅读(48)评论(0)

背景在深度学习模型部署过程中，我们经常会遇到由于推理框架（如 MNN、NCNN、TNN）更新较慢，导致某些新出的激活函数（如 Swish、HardSwish）或者自定义算子不被支持的情况。这时，开发者通常面临两个选择：一是修改模型结构，用...

2026-02-14andy阅读(90)评论(0)

许多个人站长在使用公有云VPS或廉价虚拟主机时，都遇到了一个棘手的问题：主机提供商为了防止垃圾邮件，默认会彻底封锁出站的TCP 25端口（标准SMTP端口）。这意味着你无法直接通过VPS自带的邮件功能或搭建的邮件服务器发送邮件，尤其是会员激...

2026-02-13andy阅读(75)评论(0)

在AI模型的推理加速领域，显存带宽往往是性能瓶颈的关键。模型计算图中的许多操作，如卷积（Conv）和随后的激活函数（ReLU），虽然逻辑上是独立的步骤，但在执行时，需要将中间结果从计算单元（如GPU或NPU）写入显存，再由下一个操作读取。这...

2026-02-07andy阅读(98)评论(0)

在深度学习模型部署到边缘设备或服务器时，模型量化（如 INT8）是提高推理速度和降低内存占用的关键技术。然而，对于大型语言模型（LLM）和现代 Transformer 架构，直接使用传统的后训练量化（PTQ）方法往往会导致显著的精度下降，甚...