标签：读取

详解 ncnn 的流式加载模式：如何利用 from_android_asset 实现模型权重的零拷贝读取

2026-03-02andy阅读(81)评论(0)

背景在移动端部署 AI 模型时，内存（RAM）通常是极其珍贵的资源。传统的模型加载方式往往需要将模型文件先从磁盘或 Assets 读取到内存缓冲区，再由推理引擎解析。这种方式导致了至少双倍的内存占用。 ncnn 提供的 from_andr...

2026-02-28andy阅读(97)评论(0)

在国产 NPU（如华为昇腾 Ascend、百度昆仑芯等）上进行大规模深度学习训练时，开发者常遇到一个痛点：计算单元（NPU）在等待数据，导致利用率低下。这种情况在处理海量小文件（如千万级的 ImageNet 图片）时尤为严重。由于分布式存储...

2026-02-09andy阅读(125)评论(0)

在进行大规模模型训练时，我们通常采用分布式数据并行（DDP）来加速训练过程。然而，如果不恰当地处理数据加载，很容易导致不同工作节点（GPU/进程）之间的数据读取任务不均衡，进而造成GPU等待I/O，降低整体训练效率。本文将聚焦于 PyTo...

2026-02-06andy阅读(135)评论(0)

在现代深度学习训练中，GPU 的计算速度往往远远超过传统硬盘 I/O 或 CPU 预处理的速度。如果数据输入管道（Input Pipeline）处理不当，就会导致高性能的 GPU 不得不等待 CPU 完成数据加载和预处理，这种情况被称为“G...