标签：高性能

从 CUDA 核函数的指令发射看：为什么说 Warp Divergence 是高性能算子的“性能杀手”？

2026-02-16andy阅读(23)评论(0)

Warp Divergence（线程束分化）是CUDA编程中一个极其重要的概念，它直接关系到核函数（Kernel）的执行效率。对于追求极致性能的高性能算子来说，理解并消除Warp Divergence是提升速度的关键。 1. 什么是Warp...

2026-02-14andy阅读(34)评论(0)

在移动端进行 AI 推理时，我们通常依赖 TFLite, MNN 或 NCNN 等成熟框架。然而，当模型引入了高度定制化的层（如新型激活函数、特定的数据重排或融合操作）时，这些框架可能缺乏相应的优化实现，甚至根本不支持。这导致模型必须回退到...

2026-02-03andy阅读(53)评论(0)

在TensorFlow 2.x时代，Eager Execution（即时执行）模式极大地提升了开发体验，使得调试像写普通Python代码一样方便。然而，纯粹的Eager模式由于需要反复穿越Python解释器边界，在性能上不如静态计算图。Te...

2026-02-01andy阅读(82)评论(0)

TorchScript 是 PyTorch 官方提供的编译器，用于将 PyTorch 模型从灵活的 Python 动态图环境转换成高性能的静态图表示。这种静态图格式可以脱离 Python 解释器运行，实现推理加速，并支持在 C++ 或其他生...