深度学习

第13页

如何针对特定移动端 NPU 优化量化参数：详解对称量化与非对称量化的性能差异

2026-02-12andy阅读(144)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-12andy阅读(123)评论(0)

详解神经网络权重的聚类压缩算法：如何利用 Codebook 降低移动端内存带宽压力在移动端和边缘设备上部署深度学习模型时，模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化（如INT8）可以压缩数据，但聚类压缩提供了一种更为灵活且...

2026-02-11andy阅读(83)评论(0)

混合精度（Mixed Precision）量化是解决端侧AI模型部署中“精度损失”与“推理加速”矛盾的核心策略。当我们对整个模型进行激进的INT8量化时，通常会发现少数几个关键层（如Attention机制中的线性层、Softmax输入层或模...

2026-02-11andy阅读(76)评论(0)

模型压缩是AI模型在端侧部署和加速推理的关键步骤。在众多压缩技术中，结构化剪枝（尤其是通道剪枝）因其能直接减少参数数量和计算量（FLOPs），成为实现模型体积减半的有效手段。本文将聚焦于如何结合L1稀疏化训练和通道剪枝，在PyTorch框架...

2026-02-11andy阅读(98)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-11andy阅读(99)评论(0)

TensorFlow 在早期的 1.x 版本中，模型存储通常依赖于 Checkpoint 文件（.ckpt）。许多初学者会疑惑：.ckpt 文件里存储的究竟是什么？为什么加载它还需要一个额外的 .meta 文件？答案就是元图（MetaG...

2026-02-10andy阅读(68)评论(0)

在使用 TensorFlow (TF) 进行深度学习开发时，尤其是涉及到 GPU 资源管理时，许多开发者会遇到一个令人头疼的问题：TensorFlow 默认会在初始化时，预先分配几乎所有可用的 GPU 显存，即使模型非常小。这导致了显存资源...

2026-02-10andy阅读(86)评论(0)

在TensorFlow 2.x时代，我们广泛使用@tf.function来将Python函数编译成高效的TensorFlow计算图（Graph）。然而，当我们在这些被编译的函数内部尝试使用标准的Python print()函数来查看张量数值...

2026-02-10andy阅读(70)评论(0)

在高性能计算领域，特别是深度学习推理和训练中，最大限度地利用硬件（如GPU或TPU）的计算能力至关重要。TensorFlow通过集成XLA（Accelerated Linear Algebra，加速线性代数）编译器来实现这一目标。然而，全局...

2026-02-10andy阅读(120)评论(0)

TensorFlow Serving (TFS) 是生产环境中部署模型的标准工具。在AI应用迭代速度极快的今天，如何在不中断服务的情况下更新模型（模型热更新，或零停机切换）成为了关键挑战。TFS通过其内置的模型版本管理机制，完美地解决了这个...