国产化环境下的模型量化详解:如何针对不同芯片的 INT8 累加器精度差异进行精细化调优
1. 背景:为什么相同的量化模型在不同芯片上精度不同? 在国产化适配过程中,开发者常遇到一个困惑:在 PyTorch 下验证良好的 INT8 量化模型,部署到昇腾(Ascend)、寒武纪(Cambricon)或昆仑芯(KunlunCore)...
1. 背景:为什么相同的量化模型在不同芯片上精度不同? 在国产化适配过程中,开发者常遇到一个困惑:在 PyTorch 下验证良好的 INT8 量化模型,部署到昇腾(Ascend)、寒武纪(Cambricon)或昆仑芯(KunlunCore)...
如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型 随着国产化算力需求的爆发,将现有的 AI 模型从 CUDA 环境迁移到国产昇腾(Ascend)平台已成为许多开发者的核心任务。得益于华为提供的 CANN(C...
随着汽车智能化进程的加速,国产化NPU(神经网络处理器)在车载平台中扮演着越来越重要的角色。然而,许多新兴的国产NPU平台在提供模型部署SDK时,往往缺乏成熟的、细粒度的性能分析工具(Profiler)。当遇到模型推理延迟过高,特别是当延迟...
在自动驾驶和智能座舱系统中,高性能车载计算平台通常依赖多个NPU(神经网络处理器)进行并行计算。这些NPU之间高效的数据交换是实现分布式训练和推理加速的关键,而集体通信库(Collective Communication Libraries...