深度学习

第16页

如何使用 tf.summary.trace_on 捕捉并分析原生计算图中的瓶颈节点

2026-02-04andy阅读(145)评论(0)

在AI模型部署和推理加速过程中，理解模型内部操作的执行时间至关重要。TensorFlow提供了一套强大的分析工具，其中 tf.summary.trace_on 是捕捉计算图级别性能数据，并利用TensorBoard Profiler进行深度...

2026-02-04andy阅读(107)评论(0)

在AI模型部署和推理加速领域，计算图优化是至关重要的一环。TensorFlow的XLA（Accelerated Linear Algebra）编译器是执行这些优化的强大工具，它能够通过重写计算图来显著提高模型运行效率。本文将深入探讨XLA...

2026-02-04andy阅读(87)评论(0)

在TensorFlow的图模式（Graph Mode，主要指TF 1.x或TF 2.x的@tf.function内部）中，操作的执行顺序并非基于代码的书写顺序，而是基于数据流依赖（Data Flow Dependencies）。只有当一个算...

2026-02-04andy阅读(109)评论(0)

在TensorFlow 2.x中，tf.function是实现高性能图执行的核心工具。它将普通的Python函数编译成高效、可移植的TensorFlow计算图。然而，要真正发挥其性能，我们必须理解其背后的机制：函数单态化（Monomorph...

2026-02-03andy阅读(107)评论(0)

在TensorFlow 2.x时代，Eager Execution（即时执行）模式极大地提升了开发体验，使得调试像写普通Python代码一样方便。然而，纯粹的Eager模式由于需要反复穿越Python解释器边界，在性能上不如静态计算图。Te...

2026-02-03andy阅读(105)评论(0)

PyTorch作为主流的深度学习框架，其灵活强大的功能背后，隐藏着一套高效且复杂的机制来管理操作的执行，这就是我们今天要深入探讨的——PyTorch Operator Dispatcher（操作分发器）。当你简单地调用 torch.add...

2026-02-03andy阅读(93)评论(0)

在 PyTorch 中，实现 C++ 风格的算子重载（Operator Overloading）对于创建灵活的、具有领域特定行为的自定义张量类型（如量化张量、稀疏张量或固定点张量）至关重要。 PyTorch 依赖其核心调度系统（Dispat...

2026-02-03andy阅读(88)评论(0)

BatchNorm (批量归一化) 是深度学习模型中提高训练效率和稳定性的关键组件。然而，它也常常是导致训练和推理行为不一致的“陷阱”之一。大多数PyTorch用户都知道，在推理时需要调用 model.eval()。但为什么这一操作在某些...

2026-02-02andy阅读(144)评论(0)

在 AI 推理加速领域，人们通常关注 FLOPS 或计算密度，但对于延迟敏感的场景（尤其是使用小型模型或具有许多顺序层的大型模型），CPU 发射（Kernel Launch）开销往往会成为主要的性能瓶颈。每次 PyTorch 调用 GPU ...

2026-02-02andy阅读(101)评论(0)

在将 PyTorch 模型部署到资源受限的移动设备（如 Android/iOS）或嵌入式系统时，性能优化是至关重要的环节。PyTorch 提供了 TorchScript 机制，允许将模型序列化并在非 Python 环境中运行。而 torch...