标签：显存

第3页

梯度累加（Gradient Accumulation）的代价：如何在显存受限时模拟大 Batch

2026-02-01andy阅读(152)评论(0)

在深度学习的训练过程中，Batch Size（批次大小）是一个至关重要的超参数。通常情况下，更大的 Batch Size 能够提供更准确的梯度估计，有助于模型收敛到更优的解。然而，当模型参数量巨大或输入数据维度极高时，有限的显存（VRAM）...

2026-02-01andy阅读(156)评论(0)

在汽车智能座舱环境中，部署多模态大模型（如处理语音、视觉和文本的VLM/LLM）是提升用户体验的关键。然而，座舱系统通常对硬件资源（尤其是GPU/NPU的显存）具有严格的限制。当用户进行长时间的连续对话时，大模型用于存储历史信息的KV Ca...

2026-01-29andy阅读(209)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...

2026-01-29andy阅读(177)评论(0)

在深度学习模型训练和推理过程中，尤其是在使用GPU加速时，张量（Tensor）的内存管理是影响性能的关键因素。PyTorch张量的操作大致分为两类：返回“视图”（View）和返回“副本”（Copy/Clone）。不理解这两者的区别，可能导致...

2026-01-29andy阅读(227)评论(0)

在深度学习模型的训练和推理过程中，尤其是在使用PyTorch时，我们经常会遇到一个棘手的问题：明明通过 nvidia-smi 看到显存（GPU Memory）还有剩余，但在尝试分配新的大张量时却报出了 OOM（Out of Memory）错...

2026-01-29andy阅读(134)评论(0)

许多AI开发者在使用PyTorch进行训练或推理时，经常会遇到一个困惑：当我使用del删除张量后，或者模型明明只占用了几个GB的显存，但通过nvidia-smi查看时，GPU的显存占用率仍然居高不下。本文将深入解析PyTorch的显存分配机...

2026-01-06andy阅读(162)评论(0)

引言：为什么传统部署方法无法应对LLM的流量高峰？大型语言模型（LLM）的部署面临两大核心挑战：低延迟（用户响应时间）和高吞吐量（每秒处理的总请求数）。传统的推理框架，如基于标准的Hugging Face Transformers，在处理...

2025-12-24andy阅读(182)评论(0)

在训练或部署超大规模AI模型（如千亿参数LLM）时，GPU显存（VRAM）是最大的瓶颈。尽管单卡显存容量不断提升，但模型增长速度更快。解决这一问题的核心技术思路是实现“分级存储”（Memory Tiering），将高频访问的“热数据”驻留在...

2025-12-02andy阅读(252)评论(0)

引言：AIGC训练中的“内存墙”挑战 Stable Diffusion（SD）这类大型生成模型，尤其是在高分辨率图像（例如512×512或更高）上进行微调或预训练时，对GPU显存（VRAM）的需求极其苛刻。对于拥有80GB显存的N...