标签：压榨

怎样利用高通 8295 的底层加速库优化大模型推理：从内存带宽压榨到算子下沉

2026-03-20andy阅读(70)评论(0)

如何通过 Qualcomm AI Stack 优化 8295 上的大模型推理：从算子下沉到内存压榨高通 SA8295P (骁龙 8295) 作为当前智能座舱的性能标杆，其集成的 Hexagon Tensor Processor (HTP)...

2026-03-11andy阅读(60)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-02-14andy阅读(131)评论(0)

在端侧AI应用中，尤其是在处理连续、低延迟且低功耗的音频（如关键词识别）和传感器数据流时，CPU往往效率不高，GPU功耗又过大。高通骁龙芯片中的 Hexagon DSP (Digital Signal Processor) 由于其擅长并行信...

2026-02-10andy阅读(92)评论(0)

在高性能计算领域，特别是深度学习推理和训练中，最大限度地利用硬件（如GPU或TPU）的计算能力至关重要。TensorFlow通过集成XLA（Accelerated Linear Algebra，加速线性代数）编译器来实现这一目标。然而，全局...

2026-01-30andy阅读(227)评论(0)

高通骁龙8295（通常集成在Snapdragon Cockpit平台）是为高性能AI计算设计的SoC，尤其擅长处理大模型（LLMs, Vison Transformers）推理任务。其核心优势在于集成的Hexagon NPU/DSP，但要充...