人工智能和大数据

第4页

怎样通过海光 DCU 的 DTK 环境进行 ROCm 项目迁移：解决版本依赖冲突的实战避坑指南

2026-02-26andy阅读(41)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...

2026-02-26andy阅读(31)评论(0)

如何利用 MindSpore 算子下沉机制显著提升模型训练速度在深度学习模型的训练过程中，Host（CPU）与 Device（如昇腾 NPU 或 GPU）之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...

2026-02-26andy阅读(38)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-25andy阅读(35)评论(0)

如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题在国产 GPU 适配的过程中，显存不足（OOM, Out of Memory）是运行大规模语言模型（LLM）时最常见的痛点。摩尔线程（Moore Threads）的 M...

2026-02-25andy阅读(38)评论(0)

如何构建高效的CI/CD/CT自动化流水线：实现AI模型的持续训练与自动部署在传统的软件开发中，CI/CD（持续集成/持续部署）已经成为了行业标准。然而，在AI/ML领域，由于数据分布会随时间发生偏移（Data Drift），仅仅依靠软件...

2026-02-25andy阅读(40)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-02-25andy阅读(37)评论(0)

如何通过 MUSA 集群进行大模型分布式训练：详解多卡互联与带宽优化随着国产算力的崛起，摩尔线程（Moore Threads）的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下，如何充分利用 MT-Link 互联技术并优化通信...

2026-02-25andy阅读(49)评论(0)

引言随着国产 GPU 算力的快速发展，摩尔线程推出的 MUSA (Moore Threads Unified System Architecture) 架构因其对 CUDA 生态的高度兼容性，成为 AI 开发者实现国产化替代的首选路径之一...

2026-02-25andy阅读(28)评论(0)

如何彻底解决AI模型训练的不确定性：从随机种子到环境依赖的全路径管理在AI基础设施管理中，最令工程师头疼的问题莫过于“在我本地运行正常，但在生产服务器上效果下降”或“同样的参数跑两次，结果完全不同”。这种不确定性通常源于随机化管理不善和环...

2026-02-24andy阅读(44)评论(0)

如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射随着国产算力加速卡的应用普及，将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...