标签：vulkan

怎样在安卓端利用 Vulkan 编写 4-bit 专用算子：直接在 GPU 上进行解量化与计算融合

2026-03-17andy阅读(30)评论(0)

前言在安卓端侧部署大语言模型（LLM）时，内存带宽往往是最大的瓶颈。4-bit 量化（INT4）可以将权重体积减少 75%，但如果我们在推理前先用 CPU 或 GPU 算子将其还原为 FP16，会产生额外的显存读写开销。本文将教你如何编...

2026-03-11andy阅读(38)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-03-02andy阅读(70)评论(0)

背景在许多低端安卓设备上，GPU 驱动对 Vulkan 的支持不完善甚至完全缺失，迫使我们必须回到 CPU (ARM NEON) 进行推理。为了追求速度，开发者通常会开启 ncnn 的 FP16 模式，但在执行深度模型或具有全局平均池化（...

2026-02-13andy阅读(111)评论(0)

移动端AI推理对速度和功耗要求极高。传统的CPU卷积计算密集，难以满足实时性需求。将计算任务迁移到移动GPU上是主流的加速策略，而OpenGL ES (GLES) 和 Vulkan Shaders是实现这一目标的核心工具。本文将聚焦于如何...