标签：模型

第4页

从 Cuda Graph 聊起：如何消除小模型频繁发射 Kernel 带来的驱动层延时

2026-02-12andy阅读(59)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...

2026-02-12andy阅读(42)评论(0)

在AI模型部署中，偏见（Bias）和公平性（Fairness）评估往往是脱节的：数据科学家生成报告，然后需要人工审查来决定模型是否安全。要真正将偏见评估结果转化为业务决策，我们需要将其嵌入到持续集成/持续部署（CI/CD）流程中，作为模型发...

2026-02-11andy阅读(50)评论(0)

模型压缩是AI模型在端侧部署和加速推理的关键步骤。在众多压缩技术中，结构化剪枝（尤其是通道剪枝）因其能直接减少参数数量和计算量（FLOPs），成为实现模型体积减半的有效手段。本文将聚焦于如何结合L1稀疏化训练和通道剪枝，在PyTorch框架...

2026-02-11andy阅读(65)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-11andy阅读(62)评论(0)

在脱离了熟悉的 CUDA 生态后，针对华为昇腾（Ascend）硬件进行深度学习模型推理性能优化，是许多开发者需要面临的挑战。昇腾平台的核心是 CANN（Compute Architecture for Neural Networks）工具链...

2026-02-11andy阅读(64)评论(0)

金融行业的AI模型，尤其是用于信贷风险评估、市场风险量化和欺诈检测的模型，必须满足严苛的监管要求，例如巴塞尔协议（Basel Accords）关于模型风险管理的要求，以及美联储的SR 11-7指引。这些规定核心要求是模型的可追溯性、可解释性...

2026-02-10andy阅读(68)评论(0)

混合专家模型（Mixture-of-Experts, MoE）通过稀疏激活实现模型扩展，显著提升了参数量和训练效率。然而，其核心组件——路由器（Router）——在将输入Token分配给不同专家（Expert）时，带来了两大基础设施挑战：专...

2026-02-10andy阅读(61)评论(0)

TensorFlow Serving (TFS) 是生产环境中部署模型的标准工具。在AI应用迭代速度极快的今天，如何在不中断服务的情况下更新模型（模型热更新，或零停机切换）成为了关键挑战。TFS通过其内置的模型版本管理机制，完美地解决了这个...

2026-02-09andy阅读(54)评论(0)

如何通过 tf.lite.Optimize 实现权重量化：让你的模型在移动端实现 4 倍压缩 1. 为什么需要权重量化？在将深度学习模型部署到资源受限的移动设备（如手机、IoT设备）时，模型的体积和推理速度是关键瓶颈。标准的深度学习模型（...

2026-02-09andy阅读(47)评论(0)

SavedModel 格式详解：为什么它是 TensorFlow 生产环境下模型持久化的唯一真神在 TensorFlow 生态系统中，模型持久化有两种常见方式：Keras H5 格式（.h5）和 SavedModel 格式。虽然 H5 格...