andy的文章

第2页

如何使用特定工具对小型AI模型进行端到端形式化鲁棒性验证？

2026-03-16andy阅读(8)评论(0)

如何使用 Marabou 对小型神经网络进行端到端鲁棒性形式化验证在 AI 基础设施的生产实践中，传统的测试（Testing）只能证明错误的存在，而不能证明模型在特定扰动下的绝对安全性。对于自动驾驶、医疗诊断等高风险领域，形式化验证（Fo...

2026-03-15andy阅读(15)评论(0)

如何针对大模型特定层进行混合精度量化：基于敏感度分析的自动策略分配在部署大语言模型（LLM）时，全量化（如统一 INT4）虽然能极大降低显存占用，但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同，混合精度量化...

2026-03-15andy阅读(14)评论(0)

如何利用 GitOps 实现 LLM 安全提示词的自动化管理与快速部署在生成式 AI 应用的开发过程中，LLM 的安全性（Safety Alignment）是一个持续攻防的过程。为了应对不断涌现的提示词注入（Prompt Injectio...

2026-03-15andy阅读(17)评论(0)

如何通过 QLoRA 与 NF4 数据类型实现大模型低成本高效微调在大模型（LLM）落地过程中，算力成本始终是核心痛点。传统的全量参数微调（Full Fine-tuning）动辄需要数百GB显存，即便是 LoRA 技术，在处理 70B 级...

2026-03-15andy阅读(17)评论(0)

如何利用剪枝与量化协同优化：实现大模型参数量与存储空间的双重压缩实战在部署大语言模型（LLM）或大型深度学习模型时，巨大的存储占用和内存消耗往往是核心瓶颈。单一的优化技术（如仅剪枝或仅量化）有时难以满足端侧设备极低的算力要求。本文将介绍一...

2026-03-15andy阅读(24)评论(0)

如何利用 FP8 量化突破端侧 LLM 推理瓶颈：对比 INT8 的精度优势在将大语言模型（LLM）部署到手机、边缘网关或国产 NPU 等端侧设备时，显存带宽和容量通常是最大的制约因素。为了压缩模型，INT8 量化曾是主流方案。然而，随着...

2026-03-15andy阅读(17)评论(0)

如何设计低碳AI流水线：实现模型训练碳足迹的实时监控与自动化优化随着大语言模型（LLM）的算力需求呈指数级增长，AI 基础设施的能耗与碳排放已成为企业社会责任（ESG）和成本控制的重要指标。构建一个可持续的 AI 流水线（Sustaina...

2026-03-14andy阅读(23)评论(0)

1. 为什么 LLM 全量化这么难？在端侧部署大语言模型（LLM）时，W8A8（权重和激活均为8位）全量化是极致加速和节省内存的核心。然而，LLM 在推理时，激活值（Activations）中常会出现极少数数值巨大的“离群点”（Outli...

2026-03-14andy阅读(23)评论(0)

如何在 MLOps 中集成模型可解释性监控与自动告警系统在传统的 MLOps 监控体系中，工程师通常关注准确率（Accuracy）、延迟（Latency）及资源占用。但在金融风控或自动驾驶等高风险领域，这些指标无法反映模型决策逻辑是否偏离...

2026-03-14andy阅读(26)评论(0)

如何利用 GPTQ 与 AWQ 算法实现 LLM 4-bit 量化：原理剖析与端侧适配指南大语言模型（LLM）如 Llama 3、Qwen 等动辄数十亿的参数量，让移动端和边缘侧部署面临巨大的显存挑战。4-bit 量化技术通过将模型权重从...