标签：难题

如何通过 SmoothQuant 解决激活值离群点难题：实现端侧 LLM 全量化推理的关键

2026-03-14andy阅读(7)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...

2026-02-15andy阅读(67)评论(0)

在 Android 端侧推理项目中，我们通常需要集成各种高性能计算库（如 TNN, MNN, NCNN 或 TensorFlow Lite的自定义 Delegate），这些库都以 .so 动态链接库的形式提供。管理这些 .so 文件面临两大...

2026-02-12andy阅读(93)评论(0)

Git 是分布式版本控制的强大工具，但它最初设计是针对纯文本代码的。当仓库中包含大量大型二进制文件（如高分辨率图像、视频、音频文件、编译产物或数据集）时，Git 的性能会急剧下降，导致克隆（clone）、抓取（fetch）和检出（check...

2026-02-12andy阅读(80)评论(0)

在将复杂的 TensorFlow 模型部署到端侧（如移动设备或嵌入式系统）时，我们通常需要使用 TensorFlow Lite (TFLite) 转换器。然而，当模型中包含自定义层、复杂的控制流或某些非核心 TensorFlow 算子时，转...

2026-02-09andy阅读(81)评论(0)

在进行大规模模型训练时，我们通常采用分布式数据并行（DDP）来加速训练过程。然而，如果不恰当地处理数据加载，很容易导致不同工作节点（GPU/进程）之间的数据读取任务不均衡，进而造成GPU等待I/O，降低整体训练效率。本文将聚焦于 PyTo...

2026-02-03andy阅读(119)评论(0)

Elasticsearch 的查询速度是系统性能的关键指标。当用户报告搜索变慢时，我们往往难以确定瓶颈是出在特定的查询子句、过滤器、还是聚合计算上。Profile API 就是 Elasticsearch 提供的“X光片”，能够精确地诊断查...

2026-01-31andy阅读(142)评论(0)

计算机体系结构中有一个长期存在的瓶颈，称为“内存墙”（Memory Wall）。它描述了处理器速度增长（基于摩尔定律）远快于内存访问速度和带宽增长的现象。对于传统的CPU计算任务，这早已是性能限制因素；而对于今天的大型语言模型（LLMs），...

2026-01-30andy阅读(158)评论(0)

在PyTorch深度学习训练中，数据加载的速度（即I/O吞吐量）往往是整个训练流程的瓶颈。当尝试使用多进程（num_workers > 0）来加速数据读取时，用户可能会遇到程序锁死、内存暴涨或性能不升反降的问题。本文将深入解析如何通过合理配...