怎样用Kubeflow Pipeline/Argo Workflows将AI流程分解和并行化?
如何通过 Kubeflow Pipelines 深入解耦并并行化 AI 训练流水线 在现代 AI 生产环境中,单一的巨型脚本(Monolithic script)已成为迭代效率的杀手。通过将 AI 流程分解为有向无环图(DAG),我们可以实...
如何通过 Kubeflow Pipelines 深入解耦并并行化 AI 训练流水线 在现代 AI 生产环境中,单一的巨型脚本(Monolithic script)已成为迭代效率的杀手。通过将 AI 流程分解为有向无环图(DAG),我们可以实...
1. 为什么大模型推理会受限于 HBM? 在大模型(LLM)推理过程中,Transformer 架构中存在大量的逐元素(Element-wise)操作,如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中,每个算子都需...
如何利用 Ascend C 手写高性能算子:解决昇腾模型不支持算子的终极方案 在将深度学习模型部署到昇腾(Ascend)昇腾 AI 处理器时,经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时,使用 Ascend C(...
如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题 在将模型从 CUDA 迁移到昇腾 NPU(Ascend)时,很多开发者会遇到一个诡异现象:通过 nvidia-smi 类似的工具观察,显存(HBM)占用并没满,但程序却频繁报出 Out...
如何利用 Kubeflow Pipelines 与 Optuna 构建自动化模型迭代的 AutoML 管道? 在现代 MLOps 体系中,持续训练(Continuous Training, CT)是核心环节。然而,大多数流水线仅能实现“固定...
如何通过 AclLite 封装大幅简化昇腾推理程序的开发流程 在国产昇腾(Ascend)芯片上进行 AI 推理开发时,开发者通常需要直接面对 CANN (Compute Architecture for Neural Networks) 的...
如何利用 Optuna 结合 Hyperband 算法实现高效的分布式超参数优化 在深度学习模型的开发过程中,超参数搜索(HPO)往往是消耗计算资源最多的环节之一。为了在有限的时间内找到最优参数,我们需要解决两个核心问题:一是搜索算法的高效...
如何在昇腾(Ascend)平台上深度适配并优化 PyTorch 模型训练 随着国产算力的崛起,昇腾(Ascend)系列芯片已成为 AI 开发者的重要选择。很多开发者习惯了 NVIDIA + CUDA 的生态,初次接触昇腾的 CANN(Com...
如何使用 NCNN 框架在移动端高效部署 PyTorch 模型 在端侧 AI 落地过程中,如何让原本在服务器跑的重量级模型在手机端「跑得快、不发烫」是核心挑战。腾讯开发的 NCNN 是一个针对移动端优化的极致高性能神经网络推理框架,它无第三...
如何解决 PyTorch 模型迁移至昇腾 NPU 时的算子性能瓶颈与精度漂移 在国产化替代的浪潮中,将深度学习模型从 CUDA 环境迁移到华为昇腾(Ascend)CANN 平台,绝非简单的 device=’cuda’...