人工智能和大数据

第5页

怎样利用NVIDIA DCGM工具诊断和解决GPU硬件故障？

2025-11-11andy阅读(47)评论(0)

在构建和维护大规模AI基础设施时，GPU的稳定性和可靠性至关重要。GPU硬件故障，尤其是静默的内存错误（ECC errors）或过热导致的降频，可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...

2025-11-10andy阅读(42)评论(0)

抢占式实例（Spot Instance）是云服务商提供的一种基于竞价模式的计算资源，通常价格比按需实例（On-Demand）低50%到90%。对于需要数周甚至数月训练周期的大型语言模型（LLM）而言，Spot Instance是降低训练成本...

2025-11-10andy阅读(36)评论(0)

随着AI模型规模的爆炸式增长，GPU资源成为了AI基础设施中最昂贵的组成部分。对于共享的AI训练平台，缺乏精细化的GPU使用率和成本监控机制，会导致资源滥用和难以实现合理的项目/用户级别的费用分摊（Chargeback）。本文将深入探讨如...

2025-11-09andy阅读(43)评论(0)

在现代大规模AI训练中，特别是处理LLM或大型视觉模型时，计算资源（GPU）的利用率往往受限于通信带宽和延迟。集体通信操作（如AllReduce、AllGather）是分布式训练的核心，其延迟直接决定了训练的迭代速度。要实现50%以上的延迟...

2025-11-09andy阅读(48)评论(0)

概述：AI弹性计算的需求与挑战 AI工作负载，尤其是大规模模型训练和批处理推理，具有显著的突发性和可变性。在这些场景中，预先静态分配大量的GPU资源会导致极高的成本浪费。因此，设计一个能够根据待处理任务（Pending Pods）动态伸缩G...

2025-11-08andy阅读(39)评论(0)

在AI模型部署和训练的场景中，GPU利用率往往是衡量基础设施效率的核心指标。很多用户在使用PyTorch进行分布式训练（DDP）时，发现GPU的SMs（流式多处理器）利用率偏低，这通常意味着模型训练并非计算密集型，而是受到了I/O或通信的限...

2025-11-08andy阅读(40)评论(0)

如何在单个GPU上利用CUDA Streams实现模型推理的异步计算与性能优化？在现代AI基础设施中，优化推理延迟和提高GPU利用率是核心挑战。即使在单个GPU上，如果不进行适当的调度，许多操作（如数据传输和计算）也会串行执行，导致计算资...

2021-04-28andy阅读(2674)评论(0)

相似搜索问题的背景相似搜索在业务里的场景：图片相似搜索，衍生的业务：拍照购物，截图搜电影、盗版图查找；文本相似搜索：智能搜索引擎，推荐系统，问答机器人，机翻；声音相似搜搜：听歌识曲等相似搜索要解决的关键问题相似搜索无非就是为了 ...

2020-02-19andy阅读(6723)评论(0)

YOLO v3 tensorflow inference 报错failed to run cuBLAS routine cublasSgemm_v2: CUBLAS_STATUS_EXECUTION_FAILED的解决办法环境cuda9....

2020-01-15andy阅读(5409)评论(0)

CentOS7安装GPU版本的faiss详细过程 1. 拉取源码 faiss最新版本应该是1.6.1，我们git clone的时候指定这个tag 1git clone -b v1.6.1 https://github.com/faceboo...