标签：内存

第2页

ncnn 算子融合黑魔法：手动合并参数以减少模型转换后的无意义内存读写次数

2026-03-01andy阅读(75)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-03-01andy阅读(85)评论(0)

如何通过 ncnn 的 Mat 结构理解端侧内存对齐：详解 32 字节对齐对 SIMD 加速的意义在高性能端侧推理框架（如腾讯的 ncnn）中，性能优化往往精确到每一位内存布局。在阅读 ncnn 源码时，你会发现其核心数据结构 ncnn:...

2026-03-01andy阅读(76)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...

2026-02-27andy阅读(82)评论(0)

如何在 Go 中正确使用 context.Value 传递链路信息并规避内存泄漏在 Go 微服务开发中，context.Value 是在函数间传递 Request ID、UserID 或 Trace 信息的最常用工具。然而，由于 cont...

2026-02-25andy阅读(95)评论(0)

如何通过内存对齐 Padding 提升 Go 结构体在 CPU 缓存行中的访问性能在现代多核 CPU 架构中，内存访问的最小单位并非单个字节，而是被称为缓存行（Cache Line）的数据块，通常为 64 字节。当多个线程（或 Gorou...

2026-02-24andy阅读(155)评论(0)

如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题在将模型从 CUDA 迁移到昇腾 NPU（Ascend）时，很多开发者会遇到一个诡异现象：通过 nvidia-smi 类似的工具观察，显存（HBM）占用并没满，但程序却频繁报出 Out...

2026-02-22andy阅读(99)评论(0)

如何通过 runtime.SetFinalizer 捕捉 Go 对象的生命周期终点与内存泄漏在 Go 语言的开发过程中，内存管理主要由垃圾回收器（GC）自动化处理。然而，在处理系统资源（如文件描述符、网络连接）或排查复杂的内存泄漏时，了解...

2026-02-18andy阅读(127)评论(0)

Go语言以其高效的并发能力闻名，但其高性能的基础之一是极其高效的内存分配器。Go的内存分配器基于Google的TCMalloc（Thread-Caching Malloc）思想，采用了精妙的三级缓存结构，极大地减少了分配过程中的锁竞争压力。...

2026-02-16andy阅读(107)评论(0)

在高性能计算（HPC）领域，理解何时工作负载受限于计算能力（Compute Bound）或内存带宽（Memory Bound）至关重要。这通常通过“屋顶线模型”（Roofline Model）来分析。对于矩阵乘法（GEMM）任务，我们希望...

2026-02-15andy阅读(97)评论(0)

在移动端进行AI推理时，显存（通常是共享内存DRAM或专用的VRAM）往往是瓶颈。对于参数量较大的模型（如轻量级LLM或大型CV模型），其激活值和中间计算结果可能会瞬间占用数百兆甚至超过1GB的内存。本文将聚焦于推理引擎中最关键的优化技术之...