从 CUDA 到 CANN 迁移教程:详解如何使用华为插件工具自动完成算子代码映射与替换
如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射 随着国产算力加速卡的应用普及,将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...
如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射 随着国产算力加速卡的应用普及,将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...
如何通过 Kubeflow Pipelines 深入解耦并并行化 AI 训练流水线 在现代 AI 生产环境中,单一的巨型脚本(Monolithic script)已成为迭代效率的杀手。通过将 AI 流程分解为有向无环图(DAG),我们可以实...
1. 为什么大模型推理会受限于 HBM? 在大模型(LLM)推理过程中,Transformer 架构中存在大量的逐元素(Element-wise)操作,如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中,每个算子都需...
如何利用 Ascend C 手写高性能算子:解决昇腾模型不支持算子的终极方案 在将深度学习模型部署到昇腾(Ascend)昇腾 AI 处理器时,经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时,使用 Ascend C(...
如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题 在将模型从 CUDA 迁移到昇腾 NPU(Ascend)时,很多开发者会遇到一个诡异现象:通过 nvidia-smi 类似的工具观察,显存(HBM)占用并没满,但程序却频繁报出 Out...
如何利用 Kubeflow Pipelines 与 Optuna 构建自动化模型迭代的 AutoML 管道? 在现代 MLOps 体系中,持续训练(Continuous Training, CT)是核心环节。然而,大多数流水线仅能实现“固定...
如何通过 AclLite 封装大幅简化昇腾推理程序的开发流程 在国产昇腾(Ascend)芯片上进行 AI 推理开发时,开发者通常需要直接面对 CANN (Compute Architecture for Neural Networks) 的...
如何利用 Optuna 结合 Hyperband 算法实现高效的分布式超参数优化 在深度学习模型的开发过程中,超参数搜索(HPO)往往是消耗计算资源最多的环节之一。为了在有限的时间内找到最优参数,我们需要解决两个核心问题:一是搜索算法的高效...
如何在昇腾(Ascend)平台上深度适配并优化 PyTorch 模型训练 随着国产算力的崛起,昇腾(Ascend)系列芯片已成为 AI 开发者的重要选择。很多开发者习惯了 NVIDIA + CUDA 的生态,初次接触昇腾的 CANN(Com...
如何使用 NCNN 框架在移动端高效部署 PyTorch 模型 在端侧 AI 落地过程中,如何让原本在服务器跑的重量级模型在手机端「跑得快、不发烫」是核心挑战。腾讯开发的 NCNN 是一个针对移动端优化的极致高性能神经网络推理框架,它无第三...