如何利用国产分布式框架实现跨异构芯片的混合调度:在一个集群里同时跑昇腾与寒武纪
如何利用国产分布式框架实现跨异构芯片的混合调度 在国产化替代的大背景下,很多企业的数据中心不再是单一的架构,而是演变为一个包含华为昇腾(Ascend)、寒武纪(Cambricon)等多种国产AI芯片的异构算力池。如何打破厂商壁垒,在同一个集...
如何利用国产分布式框架实现跨异构芯片的混合调度 在国产化替代的大背景下,很多企业的数据中心不再是单一的架构,而是演变为一个包含华为昇腾(Ascend)、寒武纪(Cambricon)等多种国产AI芯片的异构算力池。如何打破厂商壁垒,在同一个集...
如何利用 MindSpore 算子下沉机制显著提升模型训练速度 在深度学习模型的训练过程中,Host(CPU)与 Device(如昇腾 NPU 或 GPU)之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...
在移动端进行 AI 推理时,我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而,当模型引入了高度定制化的层(如新型激活函数、特定的数据重排或融合操作)时,这些框架可能缺乏相应的优化实现,甚至根本不支持。这导致模型必须回退到...
在移动端 AI 推理领域,MNN(阿里巴巴)和 NCNN(腾讯)是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况,尤其是在面对高通(Qualcomm Adreno)和联发科(MediaTek Mal...
在大型分布式训练集群中,硬件故障是不可避免的。当一台机器的网卡(NIC)突然损坏时,这意味着该节点将无法参与通信,这对于依赖高效同步的分布式训练(如PyTorch DDP或TensorFlow MirroredStrategy)来说是致命的...
导语:从政策到基础设施的落地 AI治理框架(AIGF)不再是仅仅停留在法律或伦理层面的抽象文档。对于AI基础设施和模型部署团队而言,AIGF必须转化为可执行、可审计、可追溯的技术流程。这意味着,我们必须利用现有的MLOps工具链(如MLfl...