标签：优化

怎样通过 OmniQuant 优化量化参数：从权重变换角度提升端侧模型的感知精度

2026-03-16andy阅读(7)评论(0)

1. 为什么端侧模型需要 OmniQuant？在端侧（手机、嵌入式设备）部署大语言模型（LLM）或大型视觉模型时，量化（Quantization）是必不可少的。然而，传统的后量化（PTQ）方法（如简单的 Round-to-Nearest）...

2026-03-15andy阅读(11)评论(0)

如何利用剪枝与量化协同优化：实现大模型参数量与存储空间的双重压缩实战在部署大语言模型（LLM）或大型深度学习模型时，巨大的存储占用和内存消耗往往是核心瓶颈。单一的优化技术（如仅剪枝或仅量化）有时难以满足端侧设备极低的算力要求。本文将介绍一...

2026-03-15andy阅读(12)评论(0)

如何设计低碳AI流水线：实现模型训练碳足迹的实时监控与自动化优化随着大语言模型（LLM）的算力需求呈指数级增长，AI 基础设施的能耗与碳排放已成为企业社会责任（ESG）和成本控制的重要指标。构建一个可持续的 AI 流水线（Sustaina...

2026-03-12andy阅读(24)评论(0)

1. 为什么我们需要矢量化？在 Android 端侧推理（如 NCNN、MNN、TFLite）中，算子性能是核心。传统的标量计算（Scalar）一次只能处理一个数据，而 SIMD（Single Instruction Multiple D...

2026-03-12andy阅读(26)评论(0)

如何利用强化学习优化 AI 训练集群的任务调度效率在现代 AI 基础设施中，如何高效分配 GPU 资源是核心挑战。传统的调度算法如 FIFO（先来先服务）或 DRF（主导资源公平调度）往往难以应对大模型（LLM）训练中复杂的显存碎片化和波...

2026-03-12andy阅读(25)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...

2026-03-10andy阅读(27)评论(0)

为什么选择 FP16？在移动端 AI 推理中，内存带宽和功耗通常是最大的性能瓶颈。相比传统的 FP32（单精度浮点），FP16（半精度浮点）不仅能减少 50% 的模型内存占用和带宽需求，还能在支持 ARMv8.2-A 指令集的 CPU 上...

2026-03-05andy阅读(37)评论(0)

如何通过动态批处理与模型剪枝优化部署成本？在企业级 AI 基础设施建设中，模型推理的硬件成本（GPU/NPU 租赁与功耗）往往占据了运营成本的大头。本文将从 AI Infra 的视角出发，深入探讨如何结合模型剪枝 (Model Pruni...

2026-02-27andy阅读(67)评论(0)

如何利用知识蒸馏（Knowledge Distillation）将大模型高效压缩并优化边缘侧部署在生成式AI与大规模预训练模型（LLM）爆发的时代，模型参数量动辄百亿级，这为生产环境的部署带来了巨大挑战，尤其是资源受限的边缘计算场景。知识...

2026-02-27andy阅读(67)评论(0)

如何通过分析 Plan 9 汇编优化 Go 语言的高性能计算函数在 Go 语言开发中，绝大多数场景下我们不需要关注底层汇编。但在编写高性能科学计算、加解密算法或底层驱动时，理解 Go 的 Plan 9 汇编能帮助我们洞察编译器的行为，消除...