欢迎光临
我们一直在努力

人工智能和大数据

第74页

如何从零搭建一个基于All-Flash阵列的高速AI数据湖?

andy阅读(306)评论(0)

在现代AI训练中,数据访问速度往往成为GPU利用率的瓶颈,尤其是在处理TB甚至PB级数据集时。传统的HDD存储或低速网络存储无法满足大规模模型(如LLMs或高分辨率CV模型)对高吞吐量和低延迟I/O的需求。基于NVMe All-Flash阵...

怎样利用NVIDIA DCGM工具诊断和解决GPU硬件故障?

andy阅读(552)评论(0)

在构建和维护大规模AI基础设施时,GPU的稳定性和可靠性至关重要。GPU硬件故障,尤其是静默的内存错误(ECC errors)或过热导致的降频,可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...

如何在AI集群中将通信延迟降低50%以上?

andy阅读(293)评论(0)

在现代大规模AI训练中,特别是处理LLM或大型视觉模型时,计算资源(GPU)的利用率往往受限于通信带宽和延迟。集体通信操作(如AllReduce、AllGather)是分布式训练的核心,其延迟直接决定了训练的迭代速度。要实现50%以上的延迟...