标签：cuda

第2页

怎样利用 torch.cuda.amp 自动混合精度训练实现单卡吞吐量倍增

2026-01-29andy阅读(261)评论(0)

自动混合精度（Automatic Mixed Precision, AMP）训练是 PyTorch 1.6+ 版本引入的一项重要功能，它允许模型在训练过程中自动使用 FP16（半精度浮点数）进行计算，同时保留 FP32（单精度浮点数）来处理...

2026-01-28andy阅读(428)评论(0)

在 PyTorch 中，当内置操作无法满足性能或功能需求时，我们需要自定义高性能的 C++/CUDA 算子。要让 PyTorch 的自动求导机制（Autograd）识别并正确计算这些自定义算子的梯度，我们必须使用 torch.autogra...

2025-12-08andy阅读(723)评论(0)

如何解决 Windows 上 nvcc fatal: Cannot find compiler ‘cl.exe’ in PATH 的问题在使用 NVIDIA CUDA 工具链进行模型部署或编译自定义 PyTorch...

2025-11-30andy阅读(410)评论(0)

概述：AI训练中的“驱动黑洞” 在容器化（如Docker或Kubernetes）的AI训练环境中，GPU驱动版本的兼容性是一个常见的痛点。许多用户错误地认为只要在容器内安装了正确的CUDA运行时库，问题就解决了。然而，GPU的核心驱动是运行...

2025-11-23andy阅读(423)评论(0)

在构建基于 CUDA 的高性能计算或 AI 模型部署项目时，我们经常依赖 CMake 和 CLion 来管理复杂的 C++ 和 CUDA 代码。当 CMake 无法自动定位 CUDA 工具包时，您会遇到以下常见的错误提示： -- Found...

2025-11-08andy阅读(536)评论(0)

如何在单个GPU上利用CUDA Streams实现模型推理的异步计算与性能优化？在现代AI基础设施中，优化推理延迟和提高GPU利用率是核心挑战。即使在单个GPU上，如果不进行适当的调度，许多操作（如数据传输和计算）也会串行执行，导致计算资...