标签：显卡

如何针对摩尔线程 MT-S 系列显卡优化 Transformer 算子性能：深度解析底层流水线排布

2026-02-25andy阅读(72)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-02-04andy阅读(93)评论(0)

大型语言模型（LLM）的推理过程通常分为两个截然不同的计算阶段：预填充（Pre-fill）和生成（Decode）。这两个阶段的计算和资源需求特性存在巨大差异，如果在同一块GPU上混合执行，往往会导致资源利用率低下，尤其是在高并发的服务环境中...

2026-01-31andy阅读(105)评论(0)

概述：为什么需要分布式 Faiss 检索随着深度学习模型产生的向量维度和数量爆炸式增长（例如，十亿级以上的向量），单台服务器的内存和计算能力（即使配备了多张高性能 GPU）也难以完全容纳和处理。Faiss 提供了强大的机制来应对这种超大规...