欢迎光临
我们一直在努力

人工智能和大数据

第5页

怎样利用NVIDIA DCGM工具诊断和解决GPU硬件故障?

andy阅读(47)评论(0)

在构建和维护大规模AI基础设施时,GPU的稳定性和可靠性至关重要。GPU硬件故障,尤其是静默的内存错误(ECC errors)或过热导致的降频,可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...

如何在AI集群中将通信延迟降低50%以上?

andy阅读(43)评论(0)

在现代大规模AI训练中,特别是处理LLM或大型视觉模型时,计算资源(GPU)的利用率往往受限于通信带宽和延迟。集体通信操作(如AllReduce、AllGather)是分布式训练的核心,其延迟直接决定了训练的迭代速度。要实现50%以上的延迟...

怎样在单个GPU上用CUDA Streams实现异步计算和性能优化?

andy阅读(40)评论(0)

如何在单个GPU上利用CUDA Streams实现模型推理的异步计算与性能优化? 在现代AI基础设施中,优化推理延迟和提高GPU利用率是核心挑战。即使在单个GPU上,如果不进行适当的调度,许多操作(如数据传输和计算)也会串行执行,导致计算资...

一文带你解决各类相似搜索问题——基于faiss的超大规模向量实时检索服务之一——相似搜索问题介绍

andy阅读(2674)评论(0)

相似搜索问题的背景 相似搜索在业务里的场景:图片相似搜索,衍生的业务:拍照购物,截图搜电影、盗版图查找;文本相似搜索:智能搜索引擎,推荐系统,问答机器人,机翻;声音相似搜搜:听歌识曲等 相似搜索要解决的关键问题 相似搜索无非就是为了 ...

CentOS7安装GPU版本的faiss详细过程-汤不热吧

CentOS7安装GPU版本的faiss详细过程

andy阅读(5409)评论(0)

CentOS7安装GPU版本的faiss详细过程 1. 拉取源码 faiss最新版本应该是1.6.1,我们git clone的时候指定这个tag 1git clone -b v1.6.1 https://github.com/faceboo...