标签：优化

第2页

怎样在安卓端实现权重复用：详解多模型共享基础骨干网络（Backbone）的显存优化技巧

2026-03-12andy阅读(82)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...

2026-03-10andy阅读(62)评论(0)

为什么选择 FP16？在移动端 AI 推理中，内存带宽和功耗通常是最大的性能瓶颈。相比传统的 FP32（单精度浮点），FP16（半精度浮点）不仅能减少 50% 的模型内存占用和带宽需求，还能在支持 ARMv8.2-A 指令集的 CPU 上...

2026-03-05andy阅读(70)评论(0)

如何通过动态批处理与模型剪枝优化部署成本？在企业级 AI 基础设施建设中，模型推理的硬件成本（GPU/NPU 租赁与功耗）往往占据了运营成本的大头。本文将从 AI Infra 的视角出发，深入探讨如何结合模型剪枝 (Model Pruni...

2026-02-27andy阅读(111)评论(0)

如何利用知识蒸馏（Knowledge Distillation）将大模型高效压缩并优化边缘侧部署在生成式AI与大规模预训练模型（LLM）爆发的时代，模型参数量动辄百亿级，这为生产环境的部署带来了巨大挑战，尤其是资源受限的边缘计算场景。知识...

2026-02-27andy阅读(117)评论(0)

如何通过分析 Plan 9 汇编优化 Go 语言的高性能计算函数在 Go 语言开发中，绝大多数场景下我们不需要关注底层汇编。但在编写高性能科学计算、加解密算法或底层驱动时，理解 Go 的 Plan 9 汇编能帮助我们洞察编译器的行为，消除...

2026-02-25andy阅读(125)评论(0)

如何通过 MUSA 集群进行大模型分布式训练：详解多卡互联与带宽优化随着国产算力的崛起，摩尔线程（Moore Threads）的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下，如何充分利用 MT-Link 互联技术并优化通信...

2026-02-24andy阅读(354)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...

2026-02-18andy阅读(108)评论(0)

在 Go 语言中，性能优化和垃圾回收（GC）效率与内存分配方式息息相关。如果一个变量本可以分配在快速的栈（Stack）上，却因某些原因被分配到了慢速的堆（Heap）上，这就称为“逃逸”（Escape）。闭包（Closure）是导致变量逃逸最...

2026-02-16andy阅读(155)评论(0)

随着大模型（LLM）的飞速发展，将这些强大的AI能力部署到资源受限的手机等端侧设备上，成为了AI工程化的一大挑战。Llama系列模型虽然效果优秀，但其巨大的参数量和高昂的内存需求，使得直接部署几乎不可能。本文将详细讲解如何通过4-bit量化...

2026-02-14andy阅读(91)评论(0)

华为昇腾（Ascend）系列芯片搭载了基于达芬奇（DaVinci）架构的NPU，旨在提供极致的AI推理性能。然而，将PyTorch或TensorFlow训练的模型部署到昇腾NPU上，需要经过严格的图优化和格式转换。本文将聚焦于使用核心工具A...