标签：ssd

详解 ZeRO-Offload 机制：为什么把显存扔给内存和 SSD 却能跑通百亿参数模型？

2026-02-14andy阅读(135)评论(0)

为什么 VRAM 成为大模型训练的瓶颈？在训练参数量巨大的模型（如 Llama-2 70B）时，即使是顶级的GPU（如A100或H100）也面临着显存（VRAM）不足的问题。一个完整的模型训练状态需要存储以下核心组件：模型参数 (P)：...

2026-02-07andy阅读(91)评论(0)

许多个人站长在选择VPS时，都会纠结于使用公有云提供的网络存储（云盘/EBS）还是采用基于实例的本地SSD存储。对于运行WordPress这类I/O密集型应用的后台（wp-admin）来说，这种存储选择带来的感知差异是巨大的。本文将深入分析...

2025-12-24andy阅读(176)评论(0)

在训练或部署超大规模AI模型（如千亿参数LLM）时，GPU显存（VRAM）是最大的瓶颈。尽管单卡显存容量不断提升，但模型增长速度更快。解决这一问题的核心技术思路是实现“分级存储”（Memory Tiering），将高频访问的“热数据”驻留在...