标签：国产

如何构建适配国产 NPU 的分布式存储方案：解决海量小文件读取导致的训练 IO 阻塞难题

2026-02-28andy阅读(91)评论(0)

在国产 NPU（如华为昇腾 Ascend、百度昆仑芯等）上进行大规模深度学习训练时，开发者常遇到一个痛点：计算单元（NPU）在等待数据，导致利用率低下。这种情况在处理海量小文件（如千万级的 ImageNet 图片）时尤为严重。由于分布式存储...

2026-02-27andy阅读(94)评论(0)

如何利用国产分布式框架实现跨异构芯片的混合调度在国产化替代的大背景下，很多企业的数据中心不再是单一的架构，而是演变为一个包含华为昇腾（Ascend）、寒武纪（Cambricon）等多种国产AI芯片的异构算力池。如何打破厂商壁垒，在同一个集...

2026-02-26andy阅读(118)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-01-30andy阅读(161)评论(0)

别再神话国产芯片：深度解析算子库生态对国产 GPU 落地限制的底层逻辑近年来，国产GPU在硬件设计上取得了显著进步。然而，当讨论它们在深度学习或高性能计算（HPC）领域的实际应用时，人们往往忽略了一个致命的核心问题：算子库生态。算子库生态...