标签：onnx

怎样通过 ONNX Simplifier 消除计算图冗余节点：提升移动端推理效率的第一步

2026-02-12andy阅读(103)评论(0)

在将深度学习模型部署到移动端或嵌入式设备时，模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型，在计算图中包含大量冗余节点、不必要的初始化器（Initializers）或可合并的常量操作（如S...

2026-01-11andy阅读(204)评论(0)

在使用 onnx-tf 库将 ONNX 模型导入到 TensorFlow 环境时，个人站长和开发者经常会遇到一个棘手的错误：AttributeError: module object has no attribute ‘ceil...

2026-01-10andy阅读(158)评论(0)

对于个人站长和开发者来说，在VPS或云虚拟机上部署机器学习模型服务是一个常见的需求。虽然PyTorch在训练上灵活强大，但TensorFlow Serving（TFS）在生产环境中的稳定性和批处理能力往往更胜一筹。本文将指导您如何通过ONN...

2025-12-21andy阅读(249)评论(0)

在现代机器学习系统中，成功的模型部署依赖于四大支柱：数据（Data）、模型/算法（Model/Algorithm）、计算资源（Compute）和评估/反馈（Evaluation/Feedback）。在模型从训练环境迁移到生产环境（Com...

2025-12-20andy阅读(231)评论(0)

谷歌是否会放弃TensorFlow（TF）是一个复杂的生态问题，但对于AI基础设施工程师而言，更实际的挑战是：如何在新模型普遍倾向于使用PyTorch训练的情况下，继续高效利用已经搭建好的TensorFlow Serving（TFS）集群和...

2025-11-18andy阅读(239)评论(0)

在AI模型部署领域，将模型从x86服务器迁移到低功耗的ARM64（AArch64）边缘设备（如NVIDIA Jetson系列或树莓派）是常见的需求。虽然通常可以使用预编译的包，但为了最大限度地利用ARM架构的特定优化指令集（如NEON），我...

2025-11-18andy阅读(336)评论(0)

在AI模型部署中，推理延迟和吞吐量是决定用户体验和运营成本的关键因素。对于在NVIDIA GPU上运行的模型，想要获得极致的性能，NVIDIA TensorRT是事实上的标准优化工具。然而，直接使用TensorRT API进行部署往往涉及复...