标签：框架

如何利用国产分布式框架实现跨异构芯片的混合调度：在一个集群里同时跑昇腾与寒武纪

2026-02-27andy阅读(99)评论(0)

如何利用国产分布式框架实现跨异构芯片的混合调度在国产化替代的大背景下，很多企业的数据中心不再是单一的架构，而是演变为一个包含华为昇腾（Ascend）、寒武纪（Cambricon）等多种国产AI芯片的异构算力池。如何打破厂商壁垒，在同一个集...

2026-02-26andy阅读(111)评论(0)

如何利用 MindSpore 算子下沉机制显著提升模型训练速度在深度学习模型的训练过程中，Host（CPU）与 Device（如昇腾 NPU 或 GPU）之间的频繁通信往往是性能的绊脚石。国产 AI 框架 MindSpore 提供了一种强...

2026-02-14andy阅读(149)评论(0)

在移动端进行 AI 推理时，我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而，当模型引入了高度定制化的层（如新型激活函数、特定的数据重排或融合操作）时，这些框架可能缺乏相应的优化实现，甚至根本不支持。这导致模型必须回退到...

2026-02-13andy阅读(172)评论(0)

在移动端 AI 推理领域，MNN（阿里巴巴）和 NCNN（腾讯）是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况，尤其是在面对高通（Qualcomm Adreno）和联发科（MediaTek Mal...

2026-02-05andy阅读(124)评论(0)

在大型分布式训练集群中，硬件故障是不可避免的。当一台机器的网卡（NIC）突然损坏时，这意味着该节点将无法参与通信，这对于依赖高效同步的分布式训练（如PyTorch DDP或TensorFlow MirroredStrategy）来说是致命的...

2026-02-05andy阅读(133)评论(0)

导语：从政策到基础设施的落地 AI治理框架（AIGF）不再是仅仅停留在法律或伦理层面的抽象文档。对于AI基础设施和模型部署团队而言，AIGF必须转化为可执行、可审计、可追溯的技术流程。这意味着，我们必须利用现有的MLOps工具链（如MLfl...