标签：张量

如何利用 Android 系统的 ION 内存管理器实现跨进程、跨设备的零拷贝张量传递

2026-03-10andy阅读(70)评论(0)

背景在 Android 端侧 AI 推理场景中，模型输入往往来自于相机预览流或图像处理器。传统的做法是将数据从 Vendor 进程拷贝到 App 进程，再拷贝给推理引擎。对于 4K 图像或高频推理任务，这种 memcpy 会显著增加延迟并...

2026-02-24andy阅读(155)评论(0)

如何解决昇腾 NPU 上频繁创建张量导致的内存碎片问题在将模型从 CUDA 迁移到昇腾 NPU（Ascend）时，很多开发者会遇到一个诡异现象：通过 nvidia-smi 类似的工具观察，显存（HBM）占用并没满，但程序却频繁报出 Out...

2026-02-13andy阅读(104)评论(0)

Megatron-LM是NVIDIA开发的一个用于训练超大规模Transformer模型的框架。它通过组合三种并行技术（数据并行DP、张量并行TP、流水线并行PP）实现了高效的3D并行策略。对于希望配置和优化LLM训练的用户来说，理解TP和...

2026-02-10andy阅读(113)评论(0)

在TensorFlow 2.x时代，我们广泛使用@tf.function来将Python函数编译成高效的TensorFlow计算图（Graph）。然而，当我们在这些被编译的函数内部尝试使用标准的Python print()函数来查看张量数值...

2026-02-03andy阅读(122)评论(0)

在 PyTorch 中，实现 C++ 风格的算子重载（Operator Overloading）对于创建灵活的、具有领域特定行为的自定义张量类型（如量化张量、稀疏张量或固定点张量）至关重要。 PyTorch 依赖其核心调度系统（Dispat...

2026-02-01andy阅读(180)评论(0)

张量并行（Tensor Parallelism, TP）是大型语言模型（LLMs）训练和推理中必不可少的优化技术，它通过在不同设备（如GPU）上切分模型的权重张量来扩展计算能力。在Transformer架构中，Attention层和MLP层...

2026-01-30andy阅读(131)评论(0)

在深度学习领域，模型规模不断增大，对计算速度的要求也水涨船高。传统的FP32（单精度浮点数）运算虽然精度高，但计算量大、能耗高。为了解决这一问题，NVIDIA引入了专用的硬件加速单元——Tensor Core，并结合软件层面的混合精度（Mi...

2026-01-29andy阅读(168)评论(0)

在深度学习模型训练和推理过程中，尤其是在使用GPU加速时，张量（Tensor）的内存管理是影响性能的关键因素。PyTorch张量的操作大致分为两类：返回“视图”（View）和返回“副本”（Copy/Clone）。不理解这两者的区别，可能导致...

2025-12-21andy阅读(330)评论(0)

如何利用PyTorch的contiguous()操作优化模型推理性能并避免内存陷阱在高性能AI模型部署和基础设施建设中，内存管理和数据布局是决定计算效率的关键因素。PyTorch中的张量（Tensor）操作看似简单，但其背后的内存连续性（...