标签：混合

如何针对大模型特定的层进行混合精度量化：详解基于敏感度分析的自动策略分配

2026-03-15andy阅读(75)评论(0)

如何针对大模型特定层进行混合精度量化：基于敏感度分析的自动策略分配在部署大语言模型（LLM）时，全量化（如统一 INT4）虽然能极大降低显存占用，但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同，混合精度量化...

2026-03-14andy阅读(56)评论(0)

如何构建跨云/多区域的可观测 MLOps 容灾与故障切换系统在企业级 AI 应用中，推理服务的停机可能导致巨大的商业损失。构建一个健壮的 MLOps 容灾（Disaster Recovery, DR）方案，不仅要考虑计算节点的冗余，更要解...

2026-02-27andy阅读(94)评论(0)

如何利用国产分布式框架实现跨异构芯片的混合调度在国产化替代的大背景下，很多企业的数据中心不再是单一的架构，而是演变为一个包含华为昇腾（Ascend）、寒武纪（Cambricon）等多种国产AI芯片的异构算力池。如何打破厂商壁垒，在同一个集...

2026-02-22andy阅读(103)评论(0)

在高性能后端开发中，垃圾回收（GC）的停顿时间（STW）往往是系统响应抖动的元凶。Go 语言通过不断演进，在 1.8 版本引入了混合写屏障（Hybrid Write Barrier），极大地缩短了 STW 耗时。本文将带你透视这一机制的核心...

2026-02-09andy阅读(128)评论(0)

引言在训练大型深度学习模型时，显存（VRAM）往往是最大的瓶颈之一。TensorFlow 2.x 引入了强大的混合精度训练（Mixed Precision Training）功能，允许我们在不牺牲模型精度的情况下，大幅减少显存占用并提高训...

2026-02-07andy阅读(129)评论(0)

在现代搜索系统中，用户往往需要同时考虑关键词匹配（全文搜索）和语义相似性（向量搜索）。单独使用 Elasticsearch（ES）进行全文搜索，或单独使用 Faiss 进行向量搜索，都无法满足所有需求。本文将介绍一种高效、实操性强的混合检索...

2026-01-29andy阅读(126)评论(0)

自动混合精度（Automatic Mixed Precision, AMP）训练是 PyTorch 1.6+ 版本引入的一项重要功能，它允许模型在训练过程中自动使用 FP16（半精度浮点数）进行计算，同时保留 FP32（单精度浮点数）来处理...