如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调
如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调 在端侧 AI 场景中,为了保护用户隐私或实现个性化推荐,我们需要在移动端设备上直接对模型进行微调(Fine-tuning)。阿里巴巴开源的 MNN (M...
如何通过 MNN 的 WeightGrad 机制在移动端实现极致高效的本地权重在线微调 在端侧 AI 场景中,为了保护用户隐私或实现个性化推荐,我们需要在移动端设备上直接对模型进行微调(Fine-tuning)。阿里巴巴开源的 MNN (M...
循环分块(Loop Tiling),也称为循环阻塞(Loop Blocking),是高性能计算中优化内存局部性(Temporal and Spatial Locality)的关键技术。通过将大型计算任务分解为可放入缓存(Cache)的小块,...
如何针对车载垂直领域构建高效的 RAG 知识库:提升座舱大模型知识准确性 在汽车座舱环境中部署大模型(LLM)面临两大挑战:一是模型必须理解高度专业化的汽车术语和操作指南;二是用户对实时、准确的答案有极高要求,不能容忍“幻觉”(Halluc...
引言:LoRA微调中的数据安全挑战 参数高效微调(PEFT),尤其是低秩适配(LoRA),已成为部署大型语言模型(LLM)的主流技术。LoRA通过训练少量新增的适配器(Adapter)权重,在保持基础模型(Base Model)权重不变的前...