人工智能和大数据

第12页

自动化算子微调：利用 OpenTuner 寻找硬件指令集下的最佳分块（Tiling）参数

2026-02-12andy阅读(61)评论(0)

循环分块（Loop Tiling），也称为循环阻塞（Loop Blocking），是高性能计算中优化内存局部性（Temporal and Spatial Locality）的关键技术。通过将大型计算任务分解为可放入缓存（Cache）的小块，...

2026-02-12andy阅读(62)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...

2026-02-12andy阅读(51)评论(0)

在将深度学习模型部署到移动端或嵌入式设备时，模型的大小和推理速度是至关重要的指标。许多从PyTorch或TensorFlow导出的ONNX模型，在计算图中包含大量冗余节点、不必要的初始化器（Initializers）或可合并的常量操作（如S...

2026-02-12andy阅读(64)评论(0)

在当前的大模型（LLM）时代，NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来，形成一...

2026-02-12andy阅读(44)评论(0)

在AI模型部署中，偏见（Bias）和公平性（Fairness）评估往往是脱节的：数据科学家生成报告，然后需要人工审查来决定模型是否安全。要真正将偏见评估结果转化为业务决策，我们需要将其嵌入到持续集成/持续部署（CI/CD）流程中，作为模型发...

2026-02-12andy阅读(52)评论(0)

在将复杂的 TensorFlow 模型部署到端侧（如移动设备或嵌入式系统）时，我们通常需要使用 TensorFlow Lite (TFLite) 转换器。然而，当模型中包含自定义层、复杂的控制流或某些非核心 TensorFlow 算子时，转...

2026-02-12andy阅读(87)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-12andy阅读(67)评论(0)

详解神经网络权重的聚类压缩算法：如何利用 Codebook 降低移动端内存带宽压力在移动端和边缘设备上部署深度学习模型时，模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化（如INT8）可以压缩数据，但聚类压缩提供了一种更为灵活且...

2026-02-12andy阅读(75)评论(0)

大规模语言模型（LLM）在生产环境中的部署面临两大核心挑战：极低的延迟和极高的吞吐量。NVIDIA TensorRT-LLM（TRT-LLM）通过优化LLM结构和GPU调度，极大地提升了推理性能。然而，要将其转化为高可用、可水平扩展的企业级...

2026-02-12andy阅读(75)评论(0)

联邦学习（Federated Learning, FL）被设计用于解决数据孤岛问题，允许在不共享原始数据的前提下训练全局模型。然而，即使是模型参数的梯度信息，也可能通过复杂的重构攻击（Reconstruction Attacks）和成员推断...