andy的文章

第11页

如何利用 ncnn 的 opt.use_packing_layout 提升多通道卷积在大核 CPU 上的吞吐量

2026-03-01andy阅读(59)评论(0)

如何利用 ncnn 的 opt.use_packing_layout 提升多通道卷积在 CPU 上的推理性能在移动端和边缘侧 AI 部署中，ncnn 以其极致的性能优化著称。许多开发者在优化推理速度时，往往只关注了多线程配置（num_th...

2026-03-01andy阅读(57)评论(0)

如何通过 Evidently 监控生产环境中的概念漂移并实施自动化应对策略在 AI 基础设施（AI Infra）的运维中，模型上线只是生命周期的开始。随着时间的推移，输入数据的分布或目标变量的定义可能会发生变化，即所谓的概念漂移（Conc...

2026-03-01andy阅读(52)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-03-01andy阅读(61)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...

2026-03-01andy阅读(50)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...

2026-03-01andy阅读(55)评论(0)

如何构建实时模型漂移监控与自动再训练闭环系统？在生产环境中，机器学习模型往往面临着\”性能腐化\”的问题。由于输入数据的统计分布随时间发生变化（即数据漂移 Data Drift），模型在上线之初的高准确率可能会迅速...

2026-03-01andy阅读(51)评论(0)

如何使用 Go plugin 模块实现动态加载业务逻辑？在构建高度可扩展的系统时，我们常常希望在不重新编译主程序的情况下，动态地增加或修改业务逻辑。Go 语言从 1.8 版本开始提供了官方的 plugin 模块，支持将代码编译成共享库（....

2026-02-28andy阅读(71)评论(0)

如何通过系统底层指令精准监控国产AI芯片的算力能效比在智算中心和国产化替代的趋势下，针对国产AI芯片（如华为昇腾、寒武纪、元枢等）的精细化监控变得至关重要。本文将以昇腾（Ascend）系列芯片为例，重点讲解如何通过底层指令获取实时功耗与算...

2026-02-28andy阅读(76)评论(0)

如何利用 Kubernetes、Istio 与 NVIDIA Triton 构建工业级 AI 推理微服务架构在将 AI 模型从实验室推向生产环境时，开发者往往面临三大挑战：如何高效利用 GPU 资源、如何实现无损的流量切换、以及如何根据实...

2026-02-28andy阅读(62)评论(0)

如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速：实现边缘 AI 的极致响应在边缘计算领域，瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而，许多开发者发现直接部署模型时，推理速度远达不到预期。这...