标签：最优

怎样通过硬件感知的量化搜索（NAS+Quant）：针对不同 SoC 自动寻找最优的压缩方案

2026-03-19andy阅读(40)评论(0)

在端侧AI部署中，不同厂商的SoC（如高通骁龙的DSP、华为昇腾的NPU、联发科的APU）对不同算子位宽的加速效率截然不同。传统的统一INT8量化往往无法榨干硬件性能。本文将介绍如何利用硬件感知量化搜索（Hardware-Aware Qua...

2026-02-09andy阅读(154)评论(0)

在现代深度学习分布式训练中，NVIDIA Collective Communications Library (NCCL) 是实现高性能 GPU 间通信的核心工具。NCCL 提供了多种通信算法来优化 All-Reduce、Broadcast...

2026-02-08andy阅读(173)评论(0)

简介：为什么批量提交是写入的关键？在Elasticsearch (ES) 中，批量（Bulk）写入是实现高吞吐量数据索引的唯一方法。如果每次只提交一个文档，网络延迟和HTTP/TCP握手开销将导致性能急剧下降。然而，Bulk请求也不是越大...

2026-02-01andy阅读(266)评论(0)

在处理大规模向量搜索时，我们通常需要在搜索速度（延迟）和搜索准确性（召回率）之间做出权衡。Faiss 的 IVF（Inverted File Index）系列索引是实现高性能搜索的关键工具，而 nprobe 参数则是控制这种权衡的核心。本...