端侧模型推理优化教程
1. 为什么关注端侧推理优化? 在AI自学过程中,我发现虽然云端算力强大,但端侧(如手机、笔记本、嵌入式设备)的本地推理才是降低延迟、保护隐私、减少成本的关键。今天分享一个顶级开源资源:MLC LLM (Machine Learning C...
1. 为什么关注端侧推理优化? 在AI自学过程中,我发现虽然云端算力强大,但端侧(如手机、笔记本、嵌入式设备)的本地推理才是降低延迟、保护隐私、减少成本的关键。今天分享一个顶级开源资源:MLC LLM (Machine Learning C...
如何利用 PyTorch Dynamo 实现深度学习模型的全自动图优化与加速? 引言 在 AI 基础设施(AI Infra)领域,如何提升模型的推理和训练效率始终是核心命题。随着 PyTorch 2.0 的发布,Torch Dynamo 成...
如何将AI基础设施成本优化结果转化为商业价值报告 在AI基础设施(AI Infra)领域,工程师往往沉浸于提升GPU利用率、优化算子吞吐量或降低推理延迟。然而,对于管理层和财务决策者来说,单纯的技术指标(如TFLOPS或P99 Latenc...
随着大模型参数量的指数级增长,AI 基础设施的能源消耗和碳足迹(Carbon Footprint)已成为不可忽视的技术债。构建可持续(Sustainable)AI 流程的核心在于“可度量”。本文将介绍如何通过开源工具 CodeCarbon ...
如何利用信令位(Signaling Bits)优化低比特量化:提升移动端模型数值稳定性 在移动端部署 AI 模型时,INT4 甚至 INT2 量化是减少内存带宽和提升推理速度的利器。然而,低比特量化面临最大的挑战是数值稳定性。当权重或激活值...
1. 为什么端侧模型需要 OmniQuant? 在端侧(手机、嵌入式设备)部署大语言模型(LLM)或大型视觉模型时,量化(Quantization)是必不可少的。然而,传统的后量化(PTQ)方法(如简单的 Round-to-Nearest)...
如何利用剪枝与量化协同优化:实现大模型参数量与存储空间的双重压缩实战 在部署大语言模型(LLM)或大型深度学习模型时,巨大的存储占用和内存消耗往往是核心瓶颈。单一的优化技术(如仅剪枝或仅量化)有时难以满足端侧设备极低的算力要求。本文将介绍一...
如何设计低碳AI流水线:实现模型训练碳足迹的实时监控与自动化优化 随着大语言模型(LLM)的算力需求呈指数级增长,AI 基础设施的能耗与碳排放已成为企业社会责任(ESG)和成本控制的重要指标。构建一个可持续的 AI 流水线(Sustaina...
1. 为什么我们需要矢量化? 在 Android 端侧推理(如 NCNN、MNN、TFLite)中,算子性能是核心。传统的标量计算(Scalar)一次只能处理一个数据,而 SIMD(Single Instruction Multiple D...
如何利用强化学习优化 AI 训练集群的任务调度效率 在现代 AI 基础设施中,如何高效分配 GPU 资源是核心挑战。传统的调度算法如 FIFO(先来先服务)或 DRF(主导资源公平调度)往往难以应对大模型(LLM)训练中复杂的显存碎片化和波...