标签：国产化

详解国产化环境下的模型精校方案：如何排查由于底层算子数值精度差异导致的模型不收敛

2026-02-28andy阅读(104)评论(0)

如何排查国产AI芯片环境下因算子精度差异导致的模型不收敛问题在将深度学习模型（如ResNet、Transformer）从标准的PyTorch/TensorFlow环境迁移到国产NPU（如昇腾、寒武纪、昆仑芯等）时，开发者常遇到一个痛点：代...

2026-02-27andy阅读(96)评论(0)

如何构建标准的国产化算力容器镜像：详解底层硬件映射与二进制文件注入在国产化 AI 浪潮中，昇腾 (Ascend)、寒武纪 (Cambricon)、海光 (DCU) 等硬件层出不穷。由于各家厂商的驱动模型与 CUDA 体系存在差异，开发者往...

2026-02-27andy阅读(116)评论(0)

如何通过内核版本匹配解决国产加速卡驱动导致的黑屏与系统死机在适配国产加速卡（如昇腾、寒武纪、沐曦、摩尔线程等）时，最常见的“开门黑”就是驱动安装后重启出现黑屏、循环登录或内核崩溃（Kernel Panic）。这通常不是硬件故障，而是驱动模...

2026-02-26andy阅读(121)评论(0)

1. 背景：为什么相同的量化模型在不同芯片上精度不同？在国产化适配过程中，开发者常遇到一个困惑：在 PyTorch 下验证良好的 INT8 量化模型，部署到昇腾（Ascend）、寒武纪（Cambricon）或昆仑芯（KunlunCore）...

2026-02-22andy阅读(173)评论(0)

如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型随着国产化算力需求的爆发，将现有的 AI 模型从 CUDA 环境迁移到国产昇腾（Ascend）平台已成为许多开发者的核心任务。得益于华为提供的 CANN（C...

2026-02-17andy阅读(107)评论(0)

随着汽车智能化进程的加速，国产化NPU（神经网络处理器）在车载平台中扮演着越来越重要的角色。然而，许多新兴的国产NPU平台在提供模型部署SDK时，往往缺乏成熟的、细粒度的性能分析工具（Profiler）。当遇到模型推理延迟过高，特别是当延迟...

2026-02-05andy阅读(168)评论(0)

在自动驾驶和智能座舱系统中，高性能车载计算平台通常依赖多个NPU（神经网络处理器）进行并行计算。这些NPU之间高效的数据交换是实现分布式训练和推理加速的关键，而集体通信库（Collective Communication Libraries...