标签：npu

第2页

一道思考题：在移动端 NPU 上，为什么 3×3 卷积有时跑得比 1×1 卷积还快？

2026-02-10andy阅读(185)评论(0)

在深度学习模型优化，尤其是移动端（如高通Adreno NPU、华为Ascend NPU等）部署时，我们通常认为1×1卷积（点卷积）由于其极少的浮点运算量（FLOPs）理应比3×3卷积快得多。然而，在实际的NPU性能测试中...

2026-02-05andy阅读(161)评论(0)

在自动驾驶和智能座舱系统中，高性能车载计算平台通常依赖多个NPU（神经网络处理器）进行并行计算。这些NPU之间高效的数据交换是实现分布式训练和推理加速的关键，而集体通信库（Collective Communication Libraries...

2026-01-29andy阅读(154)评论(0)

车载系统级芯片（SOC）是智能座舱的核心。随着功能越来越复杂，传统的 CPU 单核运算已无法满足需求。现代座舱依赖异构计算架构，即同时使用通用处理器（CPU）、图形处理器（GPU）和神经网络处理器（NPU）来分担工作负载。平衡这三种核心的算...