深度学习

第11页

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异

2026-02-26andy阅读(142)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-25andy阅读(136)评论(0)

如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题在国产 GPU 适配的过程中，显存不足（OOM, Out of Memory）是运行大规模语言模型（LLM）时最常见的痛点。摩尔线程（Moore Threads）的 M...

2026-02-25andy阅读(128)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-02-25andy阅读(137)评论(0)

如何通过 MUSA 集群进行大模型分布式训练：详解多卡互联与带宽优化随着国产算力的崛起，摩尔线程（Moore Threads）的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下，如何充分利用 MT-Link 互联技术并优化通信...

2026-02-25andy阅读(270)评论(0)

引言随着国产 GPU 算力的快速发展，摩尔线程推出的 MUSA (Moore Threads Unified System Architecture) 架构因其对 CUDA 生态的高度兼容性，成为 AI 开发者实现国产化替代的首选路径之一...

2026-02-24andy阅读(184)评论(0)

如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射随着国产算力加速卡的应用普及，将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...

2026-02-24andy阅读(362)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...

2026-02-24andy阅读(104)评论(0)

如何利用 Ascend C 手写高性能算子：解决昇腾模型不支持算子的终极方案在将深度学习模型部署到昇腾（Ascend）昇腾 AI 处理器时，经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时，使用 Ascend C（...

2026-02-24andy阅读(187)评论(0)

如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题在将模型从 CUDA 迁移到昇腾 NPU（Ascend）时，很多开发者会遇到一个诡异现象：通过 nvidia-smi 类似的工具观察，显存（HBM）占用并没满，但程序却频繁报出 Out...

2026-02-23andy阅读(114)评论(0)

如何通过 AclLite 封装大幅简化昇腾推理程序的开发流程在国产昇腾（Ascend）芯片上进行 AI 推理开发时，开发者通常需要直接面对 CANN (Compute Architecture for Neural Networks) 的...