标签：tensorrt

如何利用ONNX Runtime或TensorRT将模型推理速度提升5倍以上？

2025-11-18andy阅读(45)评论(0)

在AI模型部署中，推理延迟和吞吐量是决定用户体验和运营成本的关键因素。对于在NVIDIA GPU上运行的模型，想要获得极致的性能，NVIDIA TensorRT是事实上的标准优化工具。然而，直接使用TensorRT API进行部署往往涉及复...

2018-08-16andy阅读(11642)评论(0)

首先介绍下tensorRT，tensorRT类似于tensorflow serving，都是一种用于将训练好的深度学习模型用于实时inference的工具，区别在于tensorflow serving是以一种server的方式提供出来的也就...