人工智能和大数据

第26页

PyTorch 通信原语详解：深度对比 AllReduce、AllGather 与 ReduceScatter

2026-02-01andy阅读(106)评论(0)

在现代深度学习中，模型和数据集的规模爆炸式增长，使得分布式训练成为常态。PyTorch 的 torch.distributed 包提供了一系列高效的通信原语（Collective Operations），这些原语是实现数据并行（DDP）和模...

2026-02-01andy阅读(59)评论(0)

如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题随着大语言模型（LLM）的参数量突破百亿甚至万亿级别，传统的分布式训练方案（如DDP，数据并行）已经无法满足需求，因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...

2026-02-01andy阅读(86)评论(0)

在深度学习的训练过程中，Batch Size（批次大小）是一个至关重要的超参数。通常情况下，更大的 Batch Size 能够提供更准确的梯度估计，有助于模型收敛到更优的解。然而，当模型参数量巨大或输入数据维度极高时，有限的显存（VRAM）...

2026-02-01andy阅读(79)评论(0)

如何使用特征扰动法为黑箱LLM生成高可信度的可解释性报告随着GPT-4、Claude等大型语言模型成为主流，它们在生产环境中的应用日益广泛。然而，这些模型通常作为黑箱（Black-Box）服务通过API提供，我们无法访问其权重或梯度，这使...

2026-01-31andy阅读(74)评论(0)

为什么 ZeRO-3 能让单卡跑起“塞不下”的模型？随着大语言模型（LLM）的尺寸不断膨胀，GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型（如GPT-3），即使使用混合精度（FP16/BF16），仅参数、梯度和优化器状...

2026-01-31andy阅读(88)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...

2026-01-31andy阅读(79)评论(0)

如何解决 Elasticsearch 深度分页问题：Scroll 与 Search After 实战指南在使用 Elasticsearch 进行数据查询时，我们通常使用 from 和 size 参数来实现分页。然而，当试图获取大量分页结果...

2026-01-31andy阅读(71)评论(0)

在构建大规模深度学习模型训练系统时，参数服务器（Parameter Server, PS）架构是一种常见的解决方案。它将模型参数的存储和更新集中在专用的PS节点上，而Worker节点（训练器）只负责计算梯度并发送给PS。PyTorch 提供...

2026-01-31andy阅读(101)评论(0)

计算机体系结构中有一个长期存在的瓶颈，称为“内存墙”（Memory Wall）。它描述了处理器速度增长（基于摩尔定律）远快于内存访问速度和带宽增长的现象。对于传统的CPU计算任务，这早已是性能限制因素；而对于今天的大型语言模型（LLMs），...

2026-01-31andy阅读(81)评论(0)

导言：为什么我们需要因果解释？在AI模型部署中，可解释性（XAI）是信任和合规性的基石。然而，传统的XAI方法如LIME和SHAP，本质上是基于特征的局部相关性（Association）。它们能回答“哪些特征导致了当前的预测结果？”，但无...