标签：合并

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧

2026-03-18andy阅读(48)评论(0)

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧在移动端部署深度学习模型时，为了追求极致的推理速度和更小的模型体积，INT8 量化几乎是标配。然而，很多开发者在实际部署时发现，虽然权重变成了 I...

2026-02-03andy阅读(120)评论(0)

在现代大型语言模型（LLMs）和基于 Transformer 架构的模型中，性能优化是提高服务吞吐量（QPS，Queries Per Second）的关键。其中一个最有效的策略是算子融合（Operator Fusion）。本文将深入探讨为什...

2026-01-24andy阅读(132)评论(0)

Elasticsearch（基于Lucene）在数据写入时，并不会立即修改大文件，而是不断创建小的、不可变的索引文件，这些文件被称为“段”（Segment）。段数量过多是影响Elasticsearch性能的常见瓶颈：过多的段会占用更多的文件...