标签：gpu

第2页

详解节点亲和性 Affinity：怎样让特定的计算任务精准落在带 GPU 的机器上

2026-02-06andy阅读(135)评论(0)

在处理AI/ML训练、高性能计算（HPC）等场景时，我们经常需要确保特定的工作负载只能运行在具备特定硬件（如GPU、高性能SSD或特殊网络接口）的机器上。Kubernetes的节点亲和性（Node Affinity）就是解决这一问题的核心机...

2026-02-06andy阅读(92)评论(0)

在深度学习和高性能计算环境中，GPU是核心资源。显存泄漏（Memory Leak）或功率过载不仅会影响当前任务的稳定性，还可能导致硬件损耗。本指南将介绍如何结合 Prometheus、Alertmanager 和 dcgm-exporter...

2026-02-06andy阅读(92)评论(0)

在现代深度学习训练中，GPU 的计算速度往往远远超过传统硬盘 I/O 或 CPU 预处理的速度。如果数据输入管道（Input Pipeline）处理不当，就会导致高性能的 GPU 不得不等待 CPU 完成数据加载和预处理，这种情况被称为“G...

2026-02-05andy阅读(96)评论(0)

在进行深度学习模型开发时，特别是在测试分布式训练策略（如 tf.distribute.MirroredStrategy）时，我们往往需要多块 GPU。然而，并非所有开发环境都具备多卡资源。TensorFlow 提供了一种强大的解决方案：虚拟...

2026-02-02andy阅读(96)评论(0)

异构计算（Heterogeneous Computing）指的是在同一系统中使用不同类型的处理器（如 CPU、GPU、TPU 等）协同工作来完成任务。在深度学习训练中，最常见的异构模式就是让多核 CPU 专注于数据加载、预处理和增强（I/O...

2026-01-31andy阅读(114)评论(0)

在深度学习训练和推理过程中，我们经常会发现 GPU 使用率不高，或者训练速度远低于预期。这往往不是 GPU 计算慢，而是因为数据加载和预处理（Data I/O）成为了瓶颈，导致 GPU 必须等待 CPU 准备好下一批数据。这种等待被称为“数...

2026-01-30andy阅读(125)评论(0)

别再神话国产芯片：深度解析算子库生态对国产 GPU 落地限制的底层逻辑近年来，国产GPU在硬件设计上取得了显著进步。然而，当讨论它们在深度学习或高性能计算（HPC）领域的实际应用时，人们往往忽略了一个致命的核心问题：算子库生态。算子库生态...

2026-01-30andy阅读(125)评论(0)

概述：理解并行计算的基石在高性能计算领域，实现大规模数据并行是提升运算速度的关键。CPU和GPU在底层架构上选择了不同的路径来实现这一目标：CPU主要依赖SIMD (Single Instruction, Multiple Data)，而...

2026-01-30andy阅读(143)评论(0)

引言：为什么需要 Faiss GPU？在处理海量向量数据（例如，数百万或数十亿个128维或更高维度的向量）时，传统的CPU计算受限于核心数量和内存带宽，查询延迟往往难以接受。Faiss通过其高度优化的GPU模块，能够充分利用NVIDIA ...

2026-01-29andy阅读(144)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...