如何构建一个高性能的模型注册表(Model Registry)管理模型元数据?
如何构建高性能模型注册表:基于 MLflow 的元数据管理实践 在 AI 基础设施中,模型注册表(Model Registry)不仅是一个存储桶,它是管理模型生命周期、版本控制以及元数据的核心中枢。一个高性能的模型注册表能够支持快速的元数据...
如何构建高性能模型注册表:基于 MLflow 的元数据管理实践 在 AI 基础设施中,模型注册表(Model Registry)不仅是一个存储桶,它是管理模型生命周期、版本控制以及元数据的核心中枢。一个高性能的模型注册表能够支持快速的元数据...
如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目:解决版本冲突的实战指南 海光 DCU(Deep Computing Unit)作为国产 AI 算力的佼佼者,其底层软件栈 DTK(Deep-learning ToolKit)高度兼...
如何利用 MindSpore 算子下沉机制显著提升模型训练速度 在深度学习模型的训练过程中,Host(CPU)与 Device(如昇腾 NPU 或 GPU)之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...
如何解决国产 AI 芯片下的集合通信瓶颈:深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异 在分布式深度学习中,集合通信(Collective Communication)是决定训练效率的关键。在 NVIDIA ...
如何利用 MUSA 运行时的显存超发机制解决大模型推理中的显存不足问题 在国产 GPU 适配的过程中,显存不足(OOM, Out of Memory)是运行大规模语言模型(LLM)时最常见的痛点。摩尔线程(Moore Threads)的 M...
如何构建高效的CI/CD/CT自动化流水线:实现AI模型的持续训练与自动部署 在传统的软件开发中,CI/CD(持续集成/持续部署)已经成为了行业标准。然而,在AI/ML领域,由于数据分布会随时间发生偏移(Data Drift),仅仅依靠软件...
如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能 在国产 GPU 适配过程中,摩尔线程(Moore Threads)的 MUSA 架构表现出色。但要榨干其 MT-S 系列(如 MT-S80/MT-S30...
如何通过 MUSA 集群进行大模型分布式训练:详解多卡互联与带宽优化 随着国产算力的崛起,摩尔线程(Moore Threads)的 MUSA 架构已成为大模型训练的重要选择。在多卡集群环境下,如何充分利用 MT-Link 互联技术并优化通信...
引言 随着国产 GPU 算力的快速发展,摩尔线程推出的 MUSA (Moore Threads Unified System Architecture) 架构因其对 CUDA 生态的高度兼容性,成为 AI 开发者实现国产化替代的首选路径之一...
如何彻底解决AI模型训练的不确定性:从随机种子到环境依赖的全路径管理 在AI基础设施管理中,最令工程师头疼的问题莫过于“在我本地运行正常,但在生产服务器上效果下降”或“同样的参数跑两次,结果完全不同”。这种不确定性通常源于随机化管理不善和环...