andy的文章

第10页

如何通过 PageAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM

2026-03-16andy阅读(67)评论(0)

如何通过 PagedAttention 与分块量化结合：解决移动端内存碎片化导致的长文本 OOM 在移动端部署大语言模型（LLM）时，内存压力主要源于 KV Cache。随着对话长度增加，KV Cache 呈线性增长，且传统的连续内存分配方...

2026-03-16andy阅读(78)评论(0)

如何通过 INT4 KV Cache 量化大幅提升移动端 LLM 的多轮对话上限在大模型（LLM）落地移动端的过程中，内存占用是最大的瓶颈。除了模型权重（Weights）外，KV Cache 的增长直接决定了多轮对话的上下文长度上限。本文...

2026-03-16andy阅读(75)评论(0)

1. 为什么端侧模型需要 OmniQuant？在端侧（手机、嵌入式设备）部署大语言模型（LLM）或大型视觉模型时，量化（Quantization）是必不可少的。然而，传统的后量化（PTQ）方法（如简单的 Round-to-Nearest）...

2026-03-16andy阅读(52)评论(0)

如何使用 Marabou 对小型神经网络进行端到端鲁棒性形式化验证在 AI 基础设施的生产实践中，传统的测试（Testing）只能证明错误的存在，而不能证明模型在特定扰动下的绝对安全性。对于自动驾驶、医疗诊断等高风险领域，形式化验证（Fo...

2026-03-15andy阅读(79)评论(0)

如何针对大模型特定层进行混合精度量化：基于敏感度分析的自动策略分配在部署大语言模型（LLM）时，全量化（如统一 INT4）虽然能极大降低显存占用，但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同，混合精度量化...

2026-03-15andy阅读(54)评论(0)

如何利用 GitOps 实现 LLM 安全提示词的自动化管理与快速部署在生成式 AI 应用的开发过程中，LLM 的安全性（Safety Alignment）是一个持续攻防的过程。为了应对不断涌现的提示词注入（Prompt Injectio...

2026-03-15andy阅读(81)评论(0)

如何通过 QLoRA 与 NF4 数据类型实现大模型低成本高效微调在大模型（LLM）落地过程中，算力成本始终是核心痛点。传统的全量参数微调（Full Fine-tuning）动辄需要数百GB显存，即便是 LoRA 技术，在处理 70B 级...

2026-03-15andy阅读(61)评论(0)

如何利用剪枝与量化协同优化：实现大模型参数量与存储空间的双重压缩实战在部署大语言模型（LLM）或大型深度学习模型时，巨大的存储占用和内存消耗往往是核心瓶颈。单一的优化技术（如仅剪枝或仅量化）有时难以满足端侧设备极低的算力要求。本文将介绍一...

2026-03-15andy阅读(90)评论(0)

如何利用 FP8 量化突破端侧 LLM 推理瓶颈：对比 INT8 的精度优势在将大语言模型（LLM）部署到手机、边缘网关或国产 NPU 等端侧设备时，显存带宽和容量通常是最大的制约因素。为了压缩模型，INT8 量化曾是主流方案。然而，随着...

2026-03-15andy阅读(79)评论(0)

如何设计低碳AI流水线：实现模型训练碳足迹的实时监控与自动化优化随着大语言模型（LLM）的算力需求呈指数级增长，AI 基础设施的能耗与碳排放已成为企业社会责任（ESG）和成本控制的重要指标。构建一个可持续的 AI 流水线（Sustaina...