标签：torch

如何通过 torch.overload 实现类似 C++ 的算子重载：构建灵活的自定义张量类型

2026-02-03andy阅读(46)评论(0)

在 PyTorch 中，实现 C++ 风格的算子重载（Operator Overloading）对于创建灵活的、具有领域特定行为的自定义张量类型（如量化张量、稀疏张量或固定点张量）至关重要。 PyTorch 依赖其核心调度系统（Dispat...

2026-02-02andy阅读(57)评论(0)

在将 PyTorch 模型部署到资源受限的移动设备（如 Android/iOS）或嵌入式系统时，性能优化是至关重要的环节。PyTorch 提供了 TorchScript 机制，允许将模型序列化并在非 Python 环境中运行。而 torch...

2026-02-02andy阅读(50)评论(0)

在复杂的AI推理加速和模型部署场景中，我们经常需要对自定义的神经网络架构进行修改、融合或适配特定的硬件加速器。PyTorch 2.0生态系统中的核心工具 torch.fx 为我们提供了强大的基础能力——符号追踪（Symbolic Traci...

2026-01-31andy阅读(54)评论(0)

在构建大规模深度学习模型训练系统时，参数服务器（Parameter Server, PS）架构是一种常见的解决方案。它将模型参数的存储和更新集中在专用的PS节点上，而Worker节点（训练器）只负责计算梯度并发送给PS。PyTorch 提供...

2026-01-31andy阅读(48)评论(0)

在 AI 部署和推理加速的过程中，模型加载速度是影响启动时间和用户体验的关键因素之一。特别是对于拥有数千万甚至数十亿参数的大规模模型，例如大型语言模型（LLMs），加载 state_dict 往往需要大量时间。本文将深入探讨 PyTorc...

2026-01-30andy阅读(61)评论(0)

在训练深度学习模型，尤其是如Transformer这类拥有数百甚至数千层的超大模型时，GPU显存往往成为瓶颈。标准的反向传播算法需要存储前向传播中每层的所有中间激活值（Activations），以便在计算梯度时使用，这消耗了大量的显存。当模...

2026-01-29andy阅读(59)评论(0)

自动混合精度（Automatic Mixed Precision, AMP）训练是 PyTorch 1.6+ 版本引入的一项重要功能，它允许模型在训练过程中自动使用 FP16（半精度浮点数）进行计算，同时保留 FP32（单精度浮点数）来处理...

2026-01-28andy阅读(87)评论(0)

在 PyTorch 的模型推理阶段，我们通常需要禁用梯度计算，以节省内存和提高运行速度。最常用的方法是使用上下文管理器 torch.no_grad()。然而，PyTorch 1.9 版本引入了一个更强大的替代品：torch.inferenc...

2025-12-16andy阅读(223)评论(0)

在构建和部署深度学习模型时，PyTorch 的类型系统是强大且严格的。开发者经常会遇到各种 RuntimeError，其中最常见且令人困惑的一种就是类型不匹配，尤其是在进行核心算术操作（如卷积 conv2d）时。本文将深入解析 Runti...