人工智能和大数据

第46页

张量并行 TP 实战：为什么 Transformer 的 MLP 层最适合横向切分

2026-02-01andy阅读(531)评论(0)

张量并行（Tensor Parallelism, TP）是大型语言模型（LLMs）训练和推理中必不可少的优化技术，它通过在不同设备（如GPU）上切分模型的权重张量来扩展计算能力。在Transformer架构中，Attention层和MLP层...

2026-02-01andy阅读(424)评论(0)

作为一名搜索技术专家，我们深知查询速度对于用户体验的重要性。在 Elasticsearch (ES) 中，提升查询速度最简单也最有效的方法之一，就是正确区分和利用 query 上下文和 filter 上下文。 1. 深入理解 Query C...

2026-02-01andy阅读(504)评论(0)

TorchScript 是 PyTorch 官方提供的编译器，用于将 PyTorch 模型从灵活的 Python 动态图环境转换成高性能的静态图表示。这种静态图格式可以脱离 Python 解释器运行，实现推理加速，并支持在 C++ 或其他生...

2026-02-01andy阅读(548)评论(0)

导语：为什么流水线并行会产生“气泡”？在训练超大规模深度学习模型时（如GPT系列），单个GPU的显存往往无法容纳整个模型。我们不得不采用模型并行策略，其中，流水线并行（Pipeline Parallelism, PP）是一种常用的方法，它...

2026-02-01andy阅读(505)评论(0)

在AI模型部署实践中，仅仅知道模型做出了什么预测是不够的，我们更需要知道“为什么”。反事实解释（Counterfactual Explanations, CFEs）提供了一种强大的、可操作性的可解释性方法：它回答了“如果我的输入稍微改变，模...

2026-02-01andy阅读(650)评论(0)

在处理大规模向量搜索时，我们通常需要在搜索速度（延迟）和搜索准确性（召回率）之间做出权衡。Faiss 的 IVF（Inverted File Index）系列索引是实现高性能搜索的关键工具，而 nprobe 参数则是控制这种权衡的核心。本...

2026-02-01andy阅读(412)评论(0)

在高性能计算和深度学习领域，分布式训练（如PyTorch DDP）是加速模型收敛的关键手段。然而，分布式环境的复杂性，尤其是涉及多机或多GPU通信时，经常会导致令人头疼的死锁或连接超时问题。这些问题往往源于网络配置错误、防火墙限制或进程间同...

2026-02-01andy阅读(586)评论(0)

在现代深度学习中，模型和数据集的规模爆炸式增长，使得分布式训练成为常态。PyTorch 的 torch.distributed 包提供了一系列高效的通信原语（Collective Operations），这些原语是实现数据并行（DDP）和模...

2026-02-01andy阅读(272)评论(0)

如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题随着大语言模型（LLM）的参数量突破百亿甚至万亿级别，传统的分布式训练方案（如DDP，数据并行）已经无法满足需求，因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...

2026-02-01andy阅读(353)评论(0)

在深度学习的训练过程中，Batch Size（批次大小）是一个至关重要的超参数。通常情况下，更大的 Batch Size 能够提供更准确的梯度估计，有助于模型收敛到更优的解。然而，当模型参数量巨大或输入数据维度极高时，有限的显存（VRAM）...