标签：nvidia

手把手带你读懂 NVIDIA Nsight Systems 性能分析图：定位算子瓶颈的艺术

2026-01-30andy阅读(87)评论(0)

NVIDIA Nsight Systems (NSS) 是一个强大的系统级性能分析工具，它能够帮助开发者深入了解 GPU 和 CPU 之间的交互，以及 CUDA 算子（Kernel）的执行效率。对于深度学习应用而言，理解哪个算子耗时最长是性...

2026-01-29andy阅读(77)评论(0)

许多AI开发者在使用PyTorch进行训练或推理时，经常会遇到一个困惑：当我使用del删除张量后，或者模型明明只占用了几个GB的显存，但通过nvidia-smi查看时，GPU的显存占用率仍然居高不下。本文将深入解析PyTorch的显存分配机...

2025-12-21andy阅读(193)评论(0)

在AI基础设施领域，一个常见的问题是：NVIDIA在内部究竟更倾向于使用PyTorch还是TensorFlow？答案是，NVIDIA作为硬件和基础设施提供商，其核心目标是确保所有主流框架都能在其CUDA平台上高效运行。因此，NVIDIA的策...

2025-11-26andy阅读(259)评论(0)

在使用Docker部署AI模型或进行深度学习训练时，我们经常需要利用NVIDIA GPU进行加速。然而，尝试运行带有–runtime=nvidia或现代–gpus all参数的容器时，可能会遇到以下错误： docke...

2025-11-22andy阅读(299)评论(0)

在高性能计算（HPC）集群或多租户的AI基础设施中，数据科学家通常面临两大挑战：一是确保训练环境的完全可复现性；二是如何在不具备Root权限的情况下，高效、安全地访问NVIDIA GPU资源。Docker和Singularity是常用的解决...

2025-11-14andy阅读(236)评论(0)

NVIDIA Triton Inference Server是高性能AI模型部署的核心工具。对于初学者和希望快速验证部署环境的工程师来说，理解并运行官方提供的样例模型是至关重要的第一步。本文将指导您如何获取官方模型仓库，并部署运行最基础的i...

2025-11-11andy阅读(450)评论(0)

在构建和维护大规模AI基础设施时，GPU的稳定性和可靠性至关重要。GPU硬件故障，尤其是静默的内存错误（ECC errors）或过热导致的降频，可能导致模型训练结果不一致甚至系统崩溃。NVIDIA Data Center GPU Manag...