标签：终极

怎样利用昇腾算子开发工具 TIK C++ 手写高性能算子：解决模型不支持算子的终极方案

2026-02-24andy阅读(84)评论(0)

如何利用 Ascend C 手写高性能算子：解决昇腾模型不支持算子的终极方案在将深度学习模型部署到昇腾（Ascend）昇腾 AI 处理器时，经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时，使用 Ascend C（...

2026-02-14andy阅读(144)评论(0)

在移动端进行 AI 推理时，我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而，当模型引入了高度定制化的层（如新型激活函数、特定的数据重排或融合操作）时，这些框架可能缺乏相应的优化实现，甚至根本不支持。这导致模型必须回退到...

2026-02-01andy阅读(98)评论(0)

如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题随着大语言模型（LLM）的参数量突破百亿甚至万亿级别，传统的分布式训练方案（如DDP，数据并行）已经无法满足需求，因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...