标签：transformer

如何针对摩尔线程 MT-S 系列显卡优化 Transformer 算子性能：深度解析底层流水线排布

2026-02-25andy阅读(72)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-02-13andy阅读(84)评论(0)

Transformer 模型，如 BERT 或其轻量化版本，在自然语言处理任务中表现出色。然而，由于其复杂的矩阵乘法和注意力机制，它们对移动端性能提出了巨大挑战。iPhone 上的神经引擎（ANE）是实现高性能端侧推理的关键，但需要模型以 ...

2026-02-08andy阅读(82)评论(0)

在深度学习，尤其是大型语言模型（LLM）的面试中，这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型，在推理（Inference）阶段，计算瓶颈确实往往落在存储带宽（Me...

2026-02-01andy阅读(122)评论(0)

张量并行（Tensor Parallelism, TP）是大型语言模型（LLMs）训练和推理中必不可少的优化技术，它通过在不同设备（如GPU）上切分模型的权重张量来扩展计算能力。在Transformer架构中，Attention层和MLP层...