标签：避坑

MNN 异构调度避坑指南：详解 CPU、GPU、NPU 在处理不同层时的优先级自动分配逻辑

2026-03-04andy阅读(95)评论(0)

引言在端侧推理中，为了追求极致性能，我们往往会开启 GPU (OpenCL/Vulkan) 或 NPU (NNAPI/CoreML) 加速。然而，MNN 在处理某些算子不支持的情况下，会自动回退到 CPU。这种“异构调度”如果配置不当，会...

2026-02-26andy阅读(258)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...

2026-02-14andy阅读(88)评论(0)

华为昇腾（Ascend）系列芯片搭载了基于达芬奇（DaVinci）架构的NPU，旨在提供极致的AI推理性能。然而，将PyTorch或TensorFlow训练的模型部署到昇腾NPU上，需要经过严格的图优化和格式转换。本文将聚焦于使用核心工具A...

2026-02-13andy阅读(125)评论(0)

在 Kubernetes (K8s) 环境中，应用的部署速度和弹性与容器镜像的体积息息相关。镜像体积越大，Kubelet 拉取（Pull）镜像所需的时间越长，尤其是在节点首次启动或冷启动时，这可能导致应用启动延迟，影响用户体验和HPA（Ho...

2026-02-08andy阅读(130)评论(0)

Git Submodule是管理跨项目依赖库（例如共享的基础组件、工具链等）的强大工具。它允许一个Git仓库引用另一个特定版本的Git仓库。然而，如果不了解其底层机制，Git子模块也可能成为开发过程中的陷阱。本文将聚焦于Git子模块的实战...

2026-02-01andy阅读(229)评论(0)

混合精度训练（Mixed Precision Training）是现代深度学习模型训练中常用的优化手段。通过将模型的大部分计算转移到半精度浮点数（FP16）进行，而保持关键部分（如权重更新）使用全精度浮点数（FP32），可以显著提高训练速度...

2026-02-01andy阅读(154)评论(0)

在Python中，当我们使用multiprocessing模块实现并发时，与多线程（threading）不同，子进程拥有独立的内存空间。这意味着父进程中定义的普通变量（如列表、字典、普通对象实例）不会自动且安全地在子进程间共享。如果尝试直接...

2026-01-31andy阅读(131)评论(0)

如何解决 Elasticsearch 深度分页问题：Scroll 与 Search After 实战指南在使用 Elasticsearch 进行数据查询时，我们通常使用 from 和 size 参数来实现分页。然而，当试图获取大量分页结果...