人工智能和大数据

第19页

如何构建一个高性能的模型注册表（Model Registry）管理模型元数据？

2026-02-26andy阅读(169)评论(0)

如何构建高性能模型注册表：基于 MLflow 的元数据管理实践在 AI 基础设施中，模型注册表（Model Registry）不仅是一个存储桶，它是管理模型生命周期、版本控制以及元数据的核心中枢。一个高性能的模型注册表能够支持快速的元数据...

2026-02-26andy阅读(454)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...

2026-02-26andy阅读(178)评论(0)

如何利用 MindSpore 算子下沉机制显著提升模型训练速度在深度学习模型的训练过程中，Host（CPU）与 Device（如昇腾 NPU 或 GPU）之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...

2026-02-26andy阅读(218)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-25andy阅读(191)评论(0)

如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题在国产 GPU 适配的过程中，显存不足（OOM, Out of Memory）是运行大规模语言模型（LLM）时最常见的痛点。摩尔线程（Moore Threads）的 M...

2026-02-25andy阅读(159)评论(0)

如何构建高效的CI/CD/CT自动化流水线：实现AI模型的持续训练与自动部署在传统的软件开发中，CI/CD（持续集成/持续部署）已经成为了行业标准。然而，在AI/ML领域，由于数据分布会随时间发生偏移（Data Drift），仅仅依靠软件...

2026-02-25andy阅读(178)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-02-25andy阅读(197)评论(0)

如何通过 MUSA 集群进行大模型分布式训练：详解多卡互联与带宽优化随着国产算力的崛起，摩尔线程（Moore Threads）的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下，如何充分利用 MT-Link 互联技术并优化通信...

2026-02-25andy阅读(363)评论(0)

引言随着国产 GPU 算力的快速发展，摩尔线程推出的 MUSA (Moore Threads Unified System Architecture) 架构因其对 CUDA 生态的高度兼容性，成为 AI 开发者实现国产化替代的首选路径之一...

2026-02-25andy阅读(133)评论(0)

如何彻底解决AI模型训练的不确定性：从随机种子到环境依赖的全路径管理在AI基础设施管理中，最令工程师头疼的问题莫过于“在我本地运行正常，但在生产服务器上效果下降”或“同样的参数跑两次，结果完全不同”。这种不确定性通常源于随机化管理不善和环...