混合精度训练 FP16 避坑指南:那个著名的“损失缩放 Loss Scaling”是干嘛的?
混合精度训练(Mixed Precision Training)是现代深度学习模型训练中常用的优化手段。通过将模型的大部分计算转移到半精度浮点数(FP16)进行,而保持关键部分(如权重更新)使用全精度浮点数(FP32),可以显著提高训练速度...
混合精度训练(Mixed Precision Training)是现代深度学习模型训练中常用的优化手段。通过将模型的大部分计算转移到半精度浮点数(FP16)进行,而保持关键部分(如权重更新)使用全精度浮点数(FP32),可以显著提高训练速度...
张量并行(Tensor Parallelism, TP)是大型语言模型(LLMs)训练和推理中必不可少的优化技术,它通过在不同设备(如GPU)上切分模型的权重张量来扩展计算能力。在Transformer架构中,Attention层和MLP层...
作为一名搜索技术专家,我们深知查询速度对于用户体验的重要性。在 Elasticsearch (ES) 中,提升查询速度最简单也最有效的方法之一,就是正确区分和利用 query 上下文和 filter 上下文。 1. 深入理解 Query C...
TorchScript 是 PyTorch 官方提供的编译器,用于将 PyTorch 模型从灵活的 Python 动态图环境转换成高性能的静态图表示。这种静态图格式可以脱离 Python 解释器运行,实现推理加速,并支持在 C++ 或其他生...
导语:为什么流水线并行会产生“气泡”? 在训练超大规模深度学习模型时(如GPT系列),单个GPU的显存往往无法容纳整个模型。我们不得不采用模型并行策略,其中,流水线并行(Pipeline Parallelism, PP)是一种常用的方法,它...
在AI模型部署实践中,仅仅知道模型做出了什么预测是不够的,我们更需要知道“为什么”。反事实解释(Counterfactual Explanations, CFEs)提供了一种强大的、可操作性的可解释性方法:它回答了“如果我的输入稍微改变,模...
在处理大规模向量搜索时,我们通常需要在搜索速度(延迟)和搜索准确性(召回率)之间做出权衡。Faiss 的 IVF(Inverted File Index)系列索引是实现高性能搜索的关键工具,而 nprobe 参数则是控制这种权衡的核心。 本...
在高性能计算和深度学习领域,分布式训练(如PyTorch DDP)是加速模型收敛的关键手段。然而,分布式环境的复杂性,尤其是涉及多机或多GPU通信时,经常会导致令人头疼的死锁或连接超时问题。这些问题往往源于网络配置错误、防火墙限制或进程间同...
在现代深度学习中,模型和数据集的规模爆炸式增长,使得分布式训练成为常态。PyTorch 的 torch.distributed 包提供了一系列高效的通信原语(Collective Operations),这些原语是实现数据并行(DDP)和模...
如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题 随着大语言模型(LLM)的参数量突破百亿甚至万亿级别,传统的分布式训练方案(如DDP,数据并行)已经无法满足需求,因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...