从 Cuda Graph 聊起:如何消除小模型频繁发射 Kernel 带来的驱动层延时
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在高性能计算和深度学习推理领域,我们经常遇到这样的瓶颈:模型计算量不大,但由于由大量细小、串联的计算操作(Kernel)组成,导致整体性能不佳。瓶颈不在于GPU的计算能力(SMs),而在于CPU与驱动层(Driver)频繁通信以发射(Lau...
在将深度学习模型部署到移动端或嵌入式设备时,模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型,在计算图中包含大量冗余节点、不必要的初始化器(Initializers)或可合并的常量操作(如S...
在当前的大模型(LLM)时代,NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来,形成一...
在AI模型部署中,偏见(Bias)和公平性(Fairness)评估往往是脱节的:数据科学家生成报告,然后需要人工审查来决定模型是否安全。要真正将偏见评估结果转化为业务决策,我们需要将其嵌入到持续集成/持续部署(CI/CD)流程中,作为模型发...
在将复杂的 TensorFlow 模型部署到端侧(如移动设备或嵌入式系统)时,我们通常需要使用 TensorFlow Lite (TFLite) 转换器。然而,当模型中包含自定义层、复杂的控制流或某些非核心 TensorFlow 算子时,转...
模型量化(Quantization)是端侧推理加速的关键技术之一,它将浮点数(FP32)权重和激活值转换为低比特整数(如INT8),显著减少了模型大小并提高了计算效率。然而,量化方式的选择——特别是对称量化(Symmetric Quanti...
详解神经网络权重的聚类压缩算法:如何利用 Codebook 降低移动端内存带宽压力 在移动端和边缘设备上部署深度学习模型时,模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化(如INT8)可以压缩数据,但聚类压缩提供了一种更为灵活且...
大规模语言模型(LLM)在生产环境中的部署面临两大核心挑战:极低的延迟和极高的吞吐量。NVIDIA TensorRT-LLM(TRT-LLM)通过优化LLM结构和GPU调度,极大地提升了推理性能。然而,要将其转化为高可用、可水平扩展的企业级...
联邦学习(Federated Learning, FL)被设计用于解决数据孤岛问题,允许在不共享原始数据的前提下训练全局模型。然而,即使是模型参数的梯度信息,也可能通过复杂的重构攻击(Reconstruction Attacks)和成员推断...
处理百万级(1M)上下文长度是大型语言模型(LLM)面临的巨大挑战。传统的自注意力机制(Self-Attention)在序列长度$N$上具有$O(N^2)$的计算复杂度和内存占用,导致单个GPU无法容纳如此巨大的KV Cache和中间激活。...