标签：卷积

移动端 GPU 加速详解：如何通过 OpenGL 与 Vulkan Shader 实现极速卷积运算

2026-02-13andy阅读(49)评论(0)

移动端AI推理对速度和功耗要求极高。传统的CPU卷积计算密集，难以满足实时性需求。将计算任务迁移到移动GPU上是主流的加速策略，而OpenGL ES (GLES) 和 Vulkan Shaders是实现这一目标的核心工具。本文将聚焦于如何...

2026-02-13andy阅读(29)评论(0)

在AI模型的推理加速领域，显存带宽往往是性能瓶颈的关键。模型计算图中的许多操作，如卷积（Conv）和随后的激活函数（ReLU），虽然逻辑上是独立的步骤，但在执行时，需要将中间结果从计算单元（如GPU或NPU）写入显存，再由下一个操作读取。这...

2026-02-10andy阅读(59)评论(0)

在深度学习模型优化，尤其是移动端（如高通Adreno NPU、华为Ascend NPU等）部署时，我们通常认为1×1卷积（点卷积）由于其极少的浮点运算量（FLOPs）理应比3×3卷积快得多。然而，在实际的NPU性能测试中...

2026-01-30andy阅读(79)评论(0)

PyTorch 默认使用 NCHW (Batch, Channels, Height, Width) 内存布局，这是一种从科学计算历史遗留下来的传统格式。然而，对于现代视觉模型，尤其是在利用 NVIDIA Tensor Core 或其他高度...