从 Cuda Graph 聊起:如何消除小模型频繁发射 Kernel 带来的驱动层延时
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在AI模型部署中,偏见(Bias)和公平性(Fairness)评估往往是脱节的:数据科学家生成报告,然后需要人工审查来决定模型是否安全。要真正将偏见评估结果转化为业务决策,我们需要将其嵌入到持续集成/持续部署(CI/CD)流程中,作为模型发...
模型压缩是AI模型在端侧部署和加速推理的关键步骤。在众多压缩技术中,结构化剪枝(尤其是通道剪枝)因其能直接减少参数数量和计算量(FLOPs),成为实现模型体积减半的有效手段。本文将聚焦于如何结合L1稀疏化训练和通道剪枝,在PyTorch框架...
如何解决模型PTQ后在端侧精度断崖式下跌的问题:详解PTQ与QAT量化技术 随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加,模型量化(Quantization)成为了提升推理速度和减少内存占用的关键技术。然而,许多开发者发现,在...
在脱离了熟悉的 CUDA 生态后,针对华为昇腾(Ascend)硬件进行深度学习模型推理性能优化,是许多开发者需要面临的挑战。昇腾平台的核心是 CANN(Compute Architecture for Neural Networks)工具链...
金融行业的AI模型,尤其是用于信贷风险评估、市场风险量化和欺诈检测的模型,必须满足严苛的监管要求,例如巴塞尔协议(Basel Accords)关于模型风险管理的要求,以及美联储的SR 11-7指引。这些规定核心要求是模型的可追溯性、可解释性...
混合专家模型(Mixture-of-Experts, MoE)通过稀疏激活实现模型扩展,显著提升了参数量和训练效率。然而,其核心组件——路由器(Router)——在将输入Token分配给不同专家(Expert)时,带来了两大基础设施挑战:专...
TensorFlow Serving (TFS) 是生产环境中部署模型的标准工具。在AI应用迭代速度极快的今天,如何在不中断服务的情况下更新模型(模型热更新,或零停机切换)成为了关键挑战。TFS通过其内置的模型版本管理机制,完美地解决了这个...
如何通过 tf.lite.Optimize 实现权重量化:让你的模型在移动端实现 4 倍压缩 1. 为什么需要权重量化? 在将深度学习模型部署到资源受限的移动设备(如手机、IoT设备)时,模型的体积和推理速度是关键瓶颈。标准的深度学习模型(...
SavedModel 格式详解:为什么它是 TensorFlow 生产环境下模型持久化的唯一真神 在 TensorFlow 生态系统中,模型持久化有两种常见方式:Keras H5 格式(.h5)和 SavedModel 格式。虽然 H5 格...