深度学习

第8页

ncnn 内存池机制详解：如何通过自定义 Allocator 解决频繁分配导致的推理抖动

2026-03-01andy阅读(51)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...

2026-02-28andy阅读(73)评论(0)

如何通过系统底层指令精准监控国产AI芯片的算力能效比在智算中心和国产化替代的趋势下，针对国产AI芯片（如华为昇腾、寒武纪、元枢等）的精细化监控变得至关重要。本文将以昇腾（Ascend）系列芯片为例，重点讲解如何通过底层指令获取实时功耗与算...

2026-02-28andy阅读(63)评论(0)

如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速：实现边缘 AI 的极致响应在边缘计算领域，瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而，许多开发者发现直接部署模型时，推理速度远达不到预期。这...

2026-02-28andy阅读(69)评论(0)

在国产 NPU（如华为昇腾 Ascend、百度昆仑芯等）上进行大规模深度学习训练时，开发者常遇到一个痛点：计算单元（NPU）在等待数据，导致利用率低下。这种情况在处理海量小文件（如千万级的 ImageNet 图片）时尤为严重。由于分布式存储...

2026-02-28andy阅读(66)评论(0)

如何排查国产AI芯片环境下因算子精度差异导致的模型不收敛问题在将深度学习模型（如ResNet、Transformer）从标准的PyTorch/TensorFlow环境迁移到国产NPU（如昇腾、寒武纪、昆仑芯等）时，开发者常遇到一个痛点：代...

2026-02-27andy阅读(65)评论(0)

如何构建标准的国产化算力容器镜像：详解底层硬件映射与二进制文件注入在国产化 AI 浪潮中，昇腾 (Ascend)、寒武纪 (Cambricon)、海光 (DCU) 等硬件层出不穷。由于各家厂商的驱动模型与 CUDA 体系存在差异，开发者往...

2026-02-27andy阅读(69)评论(0)

如何通过内核版本匹配解决国产加速卡驱动导致的黑屏与系统死机在适配国产加速卡（如昇腾、寒武纪、沐曦、摩尔线程等）时，最常见的“开门黑”就是驱动安装后重启出现黑屏、循环登录或内核崩溃（Kernel Panic）。这通常不是硬件故障，而是驱动模...

2026-02-27andy阅读(65)评论(0)

如何利用国产分布式框架实现跨异构芯片的混合调度在国产化替代的大背景下，很多企业的数据中心不再是单一的架构，而是演变为一个包含华为昇腾（Ascend）、寒武纪（Cambricon）等多种国产AI芯片的异构算力池。如何打破厂商壁垒，在同一个集...

2026-02-26andy阅读(76)评论(0)

1. 背景：为什么相同的量化模型在不同芯片上精度不同？在国产化适配过程中，开发者常遇到一个困惑：在 PyTorch 下验证良好的 INT8 量化模型，部署到昇腾（Ascend）、寒武纪（Cambricon）或昆仑芯（KunlunCore）...

2026-02-26andy阅读(146)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...