标签：下沉

怎样利用高通 8295 的底层加速库优化大模型推理：从内存带宽压榨到算子下沉

2026-03-20andy阅读(69)评论(0)

如何通过 Qualcomm AI Stack 优化 8295 上的大模型推理：从算子下沉到内存压榨高通 SA8295P (骁龙 8295) 作为当前智能座舱的性能标杆，其集成的 Hexagon Tensor Processor (HTP)...

2026-02-26andy阅读(112)评论(0)

如何利用 MindSpore 算子下沉机制显著提升模型训练速度在深度学习模型的训练过程中，Host（CPU）与 Device（如昇腾 NPU 或 GPU）之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...

2026-01-30andy阅读(226)评论(0)

高通骁龙8295（通常集成在Snapdragon Cockpit平台）是为高性能AI计算设计的SoC，尤其擅长处理大模型（LLMs, Vison Transformers）推理任务。其核心优势在于集成的Hexagon NPU/DSP，但要充...