深度学习

第15页

怎样通过高通 SNPE 框架压榨 Hexagon DSP 的算力：处理音频与传感器数据的神器

2026-02-14andy阅读(311)评论(0)

在端侧AI应用中，尤其是在处理连续、低延迟且低功耗的音频（如关键词识别）和传感器数据流时，CPU往往效率不高，GPU功耗又过大。高通骁龙芯片中的 Hexagon DSP (Digital Signal Processor) 由于其擅长并行信...

2026-02-13andy阅读(295)评论(0)

移动端AI推理对速度和功耗要求极高。传统的CPU卷积计算密集，难以满足实时性需求。将计算任务迁移到移动GPU上是主流的加速策略，而OpenGL ES (GLES) 和 Vulkan Shaders是实现这一目标的核心工具。本文将聚焦于如何...

2026-02-13andy阅读(306)评论(0)

Transformer 模型，如 BERT 或其轻量化版本，在自然语言处理任务中表现出色。然而，由于其复杂的矩阵乘法和注意力机制，它们对移动端性能提出了巨大挑战。iPhone 上的神经引擎（ANE）是实现高性能端侧推理的关键，但需要模型以 ...

2026-02-13andy阅读(293)评论(0)

在AI模型的推理加速领域，显存带宽往往是性能瓶颈的关键。模型计算图中的许多操作，如卷积（Conv）和随后的激活函数（ReLU），虽然逻辑上是独立的步骤，但在执行时，需要将中间结果从计算单元（如GPU或NPU）写入显存，再由下一个操作读取。这...

2026-02-13andy阅读(459)评论(0)

在移动端 AI 推理领域，MNN（阿里巴巴）和 NCNN（腾讯）是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况，尤其是在面对高通（Qualcomm Adreno）和联发科（MediaTek Mal...

2026-02-12andy阅读(258)评论(0)

在将深度学习模型部署到移动端或嵌入式设备时，模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型，在计算图中包含大量冗余节点、不必要的初始化器（Initializers）或可合并的常量操作（如S...

2026-02-12andy阅读(316)评论(0)

在将复杂的 TensorFlow 模型部署到端侧（如移动设备或嵌入式系统）时，我们通常需要使用 TensorFlow Lite (TFLite) 转换器。然而，当模型中包含自定义层、复杂的控制流或某些非核心 TensorFlow 算子时，转...

2026-02-12andy阅读(491)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-12andy阅读(433)评论(0)

详解神经网络权重的聚类压缩算法：如何利用 Codebook 降低移动端内存带宽压力在移动端和边缘设备上部署深度学习模型时，模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化（如INT8）可以压缩数据，但聚类压缩提供了一种更为灵活且...

2026-02-11andy阅读(303)评论(0)

混合精度（Mixed Precision）量化是解决端侧AI模型部署中“精度损失”与“推理加速”矛盾的核心策略。当我们对整个模型进行激进的INT8量化时，通常会发现少数几个关键层（如Attention机制中的线性层、Softmax输入层或模...