标签：训练

第2页

详解 PTQ 后量化与 QAT 训练中量化：为何你的模型在手机端精度断崖式下跌

2026-02-11andy阅读(139)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-09andy阅读(129)评论(0)

深度学习模型训练过程中，如果发现训练损失（Loss）突然飙升并变为NaN（Not a Number），通常标志着梯度爆炸或数值溢出。虽然直接的数值问题需要ML工程师从模型结构、学习率、或数据预处理层面解决，但作为Infra（基础设施）工程师...

2026-02-09andy阅读(133)评论(0)

引言在训练大型深度学习模型时，显存（VRAM）往往是最大的瓶颈之一。TensorFlow 2.x 引入了强大的混合精度训练（Mixed Precision Training）功能，允许我们在不牺牲模型精度的情况下，大幅减少显存占用并提高训...

2026-02-08andy阅读(273)评论(0)

训练大型语言模型（LLM）是计算密集型任务，其成本往往以GPU-Hours（GPU小时数）来衡量。准确估算这一指标，是项目规划和预算控制的关键。本文将基于LLM训练的算力基础公式（Chinchilla Scaling Laws），提供一个实...

2026-02-05andy阅读(124)评论(0)

在进行大规模深度学习训练时，数据预处理（例如图像解码、复杂的几何变换、特征提取）往往是整个训练流程中的性能瓶颈。尤其在分布式训练和多轮迭代（多Epoch）场景下，这些耗时的预处理步骤会被重复执行，造成巨大的计算浪费，并拖慢训练启动速度。 T...

2026-02-05andy阅读(126)评论(0)

在大型分布式训练集群中，硬件故障是不可避免的。当一台机器的网卡（NIC）突然损坏时，这意味着该节点将无法参与通信，这对于依赖高效同步的分布式训练（如PyTorch DDP或TensorFlow MirroredStrategy）来说是致命的...

2026-02-04andy阅读(169)评论(0)

如何利用RDMA/RoCE v2实现大模型训练的极致加速：深度解析‘零拷贝’网络通信随着AI模型规模（如LLM）的爆炸式增长，分布式训练已成为常态。然而，传统的网络通信方式（基于TCP/IP）在多GPU节点间传输海量梯度和参数时，会造成严...

2026-02-03andy阅读(117)评论(0)

BatchNorm (批量归一化) 是深度学习模型中提高训练效率和稳定性的关键组件。然而，它也常常是导致训练和推理行为不一致的“陷阱”之一。大多数PyTorch用户都知道，在推理时需要调用 model.eval()。但为什么这一操作在某些...

2026-02-02andy阅读(128)评论(0)

异构计算（Heterogeneous Computing）指的是在同一系统中使用不同类型的处理器（如 CPU、GPU、TPU 等）协同工作来完成任务。在深度学习训练中，最常见的异构模式就是让多核 CPU 专注于数据加载、预处理和增强（I/O...

2026-02-02andy阅读(161)评论(0)

在PyTorch分布式数据并行（DDP）训练中，性能瓶颈往往出现在不同进程之间的梯度同步环节。为了高效地聚合梯度，DDP引入了“梯度桶”（Gradient Buckets）机制，这不仅减少了通信延迟，还实现了计算与通信的重叠（Overlap...