标签：移动

第2页

移动端 GPU 加速详解：如何通过 OpenGL 与 Vulkan Shader 实现极速卷积运算

2026-02-13andy阅读(128)评论(0)

移动端AI推理对速度和功耗要求极高。传统的CPU卷积计算密集，难以满足实时性需求。将计算任务迁移到移动GPU上是主流的加速策略，而OpenGL ES (GLES) 和 Vulkan Shaders是实现这一目标的核心工具。本文将聚焦于如何...

2026-02-12andy阅读(103)评论(0)

在将深度学习模型部署到移动端或嵌入式设备时，模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型，在计算图中包含大量冗余节点、不必要的初始化器（Initializers）或可合并的常量操作（如S...

2026-02-12andy阅读(196)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-12andy阅读(173)评论(0)

详解神经网络权重的聚类压缩算法：如何利用 Codebook 降低移动端内存带宽压力在移动端和边缘设备上部署深度学习模型时，模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化（如INT8）可以压缩数据，但聚类压缩提供了一种更为灵活且...

2026-02-10andy阅读(185)评论(0)

在深度学习模型优化，尤其是移动端（如高通Adreno NPU、华为Ascend NPU等）部署时，我们通常认为1×1卷积（点卷积）由于其极少的浮点运算量（FLOPs）理应比3×3卷积快得多。然而，在实际的NPU性能测试中...

2026-02-09andy阅读(103)评论(0)

如何通过 tf.lite.Optimize 实现权重量化：让你的模型在移动端实现 4 倍压缩 1. 为什么需要权重量化？在将深度学习模型部署到资源受限的移动设备（如手机、IoT设备）时，模型的体积和推理速度是关键瓶颈。标准的深度学习模型（...

2026-02-02andy阅读(124)评论(0)

在将 PyTorch 模型部署到资源受限的移动设备（如 Android/iOS）或嵌入式系统时，性能优化是至关重要的环节。PyTorch 提供了 TorchScript 机制，允许将模型序列化并在非 Python 环境中运行。而 torch...