怎样利用昇腾算子开发工具 TIK C++ 手写高性能算子:解决模型不支持算子的终极方案
如何利用 Ascend C 手写高性能算子:解决昇腾模型不支持算子的终极方案 在将深度学习模型部署到昇腾(Ascend)昇腾 AI 处理器时,经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时,使用 Ascend C(...
如何利用 Ascend C 手写高性能算子:解决昇腾模型不支持算子的终极方案 在将深度学习模型部署到昇腾(Ascend)昇腾 AI 处理器时,经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时,使用 Ascend C(...
在移动端进行 AI 推理时,我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而,当模型引入了高度定制化的层(如新型激活函数、特定的数据重排或融合操作)时,这些框架可能缺乏相应的优化实现,甚至根本不支持。这导致模型必须回退到...
如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题 随着大语言模型(LLM)的参数量突破百亿甚至万亿级别,传统的分布式训练方案(如DDP,数据并行)已经无法满足需求,因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...