如何利用 OpenCL 编写自定义高性能算子:解决移动端框架缺失关键特性的终极方案
在移动端进行 AI 推理时,我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而,当模型引入了高度定制化的层(如新型激活函数、特定的数据重排或融合操作)时,这些框架可能缺乏相应的优化实现,甚至根本不支持。这导致模型必须回退到...
在移动端进行 AI 推理时,我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而,当模型引入了高度定制化的层(如新型激活函数、特定的数据重排或融合操作)时,这些框架可能缺乏相应的优化实现,甚至根本不支持。这导致模型必须回退到...
如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题 随着大语言模型(LLM)的参数量突破百亿甚至万亿级别,传统的分布式训练方案(如DDP,数据并行)已经无法满足需求,因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...