标签：交互

如何利用昇腾算子融合技术优化大模型推理延迟：从图优化层减少 HBM 与计算单元交互

2026-02-24andy阅读(310)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...

2026-02-06andy阅读(135)评论(0)

在现代智能座舱系统中，AI任务通常分为两类：高优先级、低延迟的交互任务（如语音唤醒、手势控制）和低优先级、高吞吐量的后台任务（如DMS/OMS全时监测、环境感知）。如果后台模型占用过多CPU或GPU资源，就可能导致严重的延迟，从而影响用户体...

2026-02-06andy阅读(79)评论(0)

在TensorFlow中，tf.data管道是高效数据加载的关键。然而，许多用户在使用复杂的预处理步骤（尤其是涉及大量Python原生操作时）会遇到内存占用持续增长，甚至耗尽系统资源的问题。这通常不是操作系统意义上的“内存泄漏”，而是由于数...

2026-01-31andy阅读(97)评论(0)

在现代智能座舱中，语音交互的体验直接决定了用户的满意度。传统的云端 ASR（自动语音识别）虽然识别精度高，但其固有的网络传输和全句等待时间，使得端到端延迟通常在数百毫秒甚至秒级，难以满足实时交互对“零延迟”的严苛要求。本文将聚焦如何结合离...