标签：pytorch

第2页

详解 PyTorch 显存分配器：为什么 nvidia-smi 看到的显存不等于真实占用

2026-01-29andy阅读(77)评论(0)

许多AI开发者在使用PyTorch进行训练或推理时，经常会遇到一个困惑：当我使用del删除张量后，或者模型明明只占用了几个GB的显存，但通过nvidia-smi查看时，GPU的显存占用率仍然居高不下。本文将深入解析PyTorch的显存分配机...

2026-01-28andy阅读(102)评论(0)

在 PyTorch 的模型训练和推理过程中，为了节省内存或提高计算效率，我们经常会用到原地操作（Inplace Operations），例如使用 add_()、mul_() 而不是标准的 + 或 *****。然而，在涉及到梯度计算（即 re...

2026-01-28andy阅读(126)评论(0)

在 PyTorch 中，我们通常使用 torch.no_grad() 来关闭梯度追踪，以加速推理过程或节省内存。但如果我们需要在复杂的训练流程中，根据特定的条件（例如，在执行一个嵌入式评估函数时）动态地、有条件地控制梯度，标准的上下文管理器...

2026-01-27andy阅读(79)评论(0)

导语在使用 PyTorch 进行深度学习模型开发时，我们经常会遇到一个棘手的 RuntimeError，提示我们不能对一个需要梯度的非叶子张量（non-leaf Tensor）进行原地（in-place）修改。这背后涉及到 PyTorch...

2026-01-27andy阅读(103)评论(0)

PyTorch之所以强大且灵活，很大程度上归功于其动态计算图（Dynamic Computational Graph, DCG）和自动微分系统（Autograd）。与TensorFlow 1.x的静态图不同，PyTorch的计算图是根据代码...

2026-01-10andy阅读(107)评论(0)

对于个人站长和开发者来说，在VPS或云虚拟机上部署机器学习模型服务是一个常见的需求。虽然PyTorch在训练上灵活强大，但TensorFlow Serving（TFS）在生产环境中的稳定性和批处理能力往往更胜一筹。本文将指导您如何通过ONN...

2025-12-23andy阅读(162)评论(0)

许多AI开发者在训练模型时偏爱 PyTorch 的灵活性和易用性。针对用户提出的“特斯拉使用 PyTorch 还是 TensorFlow”的问题，虽然早期特斯拉Autopilot使用了基于 C++/CUDA 的定制化基础设施，但目前业界普遍...

2025-12-22andy阅读(176)评论(0)

PyTorch在研究界和产业界快速超越TensorFlow，其核心原因并非仅仅是API的友好性，而是在AI基础设施层面，它完美解决了“开发态”和“生产态”的效率冲突。PyTorch的Eager Execution（即时执行）模式提供了极高的...

2025-12-21andy阅读(193)评论(0)

在AI基础设施领域，一个常见的问题是：NVIDIA在内部究竟更倾向于使用PyTorch还是TensorFlow？答案是，NVIDIA作为硬件和基础设施提供商，其核心目标是确保所有主流框架都能在其CUDA平台上高效运行。因此，NVIDIA的策...

2025-12-21andy阅读(239)评论(0)

如何利用PyTorch的contiguous()操作优化模型推理性能并避免内存陷阱在高性能AI模型部署和基础设施建设中，内存管理和数据布局是决定计算效率的关键因素。PyTorch中的张量（Tensor）操作看似简单，但其背后的内存连续性（...