怎样利用NVIDIA DCGM工具诊断和解决GPU硬件故障?
在构建和维护大规模AI基础设施时,GPU的稳定性和可靠性至关重要。GPU硬件故障,尤其是静默的内存错误(ECC errors)或过热导致的降频,可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...
在构建和维护大规模AI基础设施时,GPU的稳定性和可靠性至关重要。GPU硬件故障,尤其是静默的内存错误(ECC errors)或过热导致的降频,可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...
抢占式实例(Spot Instance)是云服务商提供的一种基于竞价模式的计算资源,通常价格比按需实例(On-Demand)低50%到90%。对于需要数周甚至数月训练周期的大型语言模型(LLM)而言,Spot Instance是降低训练成本...
随着AI模型规模的爆炸式增长,GPU资源成为了AI基础设施中最昂贵的组成部分。对于共享的AI训练平台,缺乏精细化的GPU使用率和成本监控机制,会导致资源滥用和难以实现合理的项目/用户级别的费用分摊(Chargeback)。 本文将深入探讨如...
在现代大规模AI训练中,特别是处理LLM或大型视觉模型时,计算资源(GPU)的利用率往往受限于通信带宽和延迟。集体通信操作(如AllReduce、AllGather)是分布式训练的核心,其延迟直接决定了训练的迭代速度。要实现50%以上的延迟...
概述:AI弹性计算的需求与挑战 AI工作负载,尤其是大规模模型训练和批处理推理,具有显著的突发性和可变性。在这些场景中,预先静态分配大量的GPU资源会导致极高的成本浪费。因此,设计一个能够根据待处理任务(Pending Pods)动态伸缩G...
在AI模型部署和训练的场景中,GPU利用率往往是衡量基础设施效率的核心指标。很多用户在使用PyTorch进行分布式训练(DDP)时,发现GPU的SMs(流式多处理器)利用率偏低,这通常意味着模型训练并非计算密集型,而是受到了I/O或通信的限...
如何在单个GPU上利用CUDA Streams实现模型推理的异步计算与性能优化? 在现代AI基础设施中,优化推理延迟和提高GPU利用率是核心挑战。即使在单个GPU上,如果不进行适当的调度,许多操作(如数据传输和计算)也会串行执行,导致计算资...
相似搜索问题的背景 相似搜索在业务里的场景:图片相似搜索,衍生的业务:拍照购物,截图搜电影、盗版图查找;文本相似搜索:智能搜索引擎,推荐系统,问答机器人,机翻;声音相似搜搜:听歌识曲等 相似搜索要解决的关键问题 相似搜索无非就是为了 ...
YOLO v3 tensorflow inference 报错failed to run cuBLAS routine cublasSgemm_v2: CUBLAS_STATUS_EXECUTION_FAILED的解决办法 环境cuda9....

CentOS7安装GPU版本的faiss详细过程 1. 拉取源码 faiss最新版本应该是1.6.1,我们git clone的时候指定这个tag 1git clone -b v1.6.1 https://github.com/faceboo...