标签：精度

怎样利用 Android 指令集特性优化：详解 armv8.2-a 带来的半精度浮点运算加速

2026-03-10andy阅读(24)评论(0)

为什么选择 FP16？在移动端 AI 推理中，内存带宽和功耗通常是最大的性能瓶颈。相比传统的 FP32（单精度浮点），FP16（半精度浮点）不仅能减少 50% 的模型内存占用和带宽需求，还能在支持 ARMv8.2-A 指令集的 CPU 上...

2026-03-06andy阅读(41)评论(0)

如何识别并解决推理库中的“伪 FP16”性能陷阱在移动端和边缘侧部署 AI 模型时，开发者通常会选择 FP16（半精度浮点数）来替代传统的 FP32（单精度浮点数）。直觉告诉我们，精度减半，速度应该翻倍，功耗也应该随之降低。然而，在实际开...

2026-02-28andy阅读(61)评论(0)

如何排查国产AI芯片环境下因算子精度差异导致的模型不收敛问题在将深度学习模型（如ResNet、Transformer）从标准的PyTorch/TensorFlow环境迁移到国产NPU（如昇腾、寒武纪、昆仑芯等）时，开发者常遇到一个痛点：代...

2026-02-26andy阅读(64)评论(0)

1. 背景：为什么相同的量化模型在不同芯片上精度不同？在国产化适配过程中，开发者常遇到一个困惑：在 PyTorch 下验证良好的 INT8 量化模型，部署到昇腾（Ascend）、寒武纪（Cambricon）或昆仑芯（KunlunCore）...

2026-02-11andy阅读(77)评论(0)

混合精度（Mixed Precision）量化是解决端侧AI模型部署中“精度损失”与“推理加速”矛盾的核心策略。当我们对整个模型进行激进的INT8量化时，通常会发现少数几个关键层（如Attention机制中的线性层、Softmax输入层或模...

2026-02-11andy阅读(73)评论(0)

模型压缩是AI模型在端侧部署和加速推理的关键步骤。在众多压缩技术中，结构化剪枝（尤其是通道剪枝）因其能直接减少参数数量和计算量（FLOPs），成为实现模型体积减半的有效手段。本文将聚焦于如何结合L1稀疏化训练和通道剪枝，在PyTorch框架...

2026-02-11andy阅读(90)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-09andy阅读(86)评论(0)

引言在训练大型深度学习模型时，显存（VRAM）往往是最大的瓶颈之一。TensorFlow 2.x 引入了强大的混合精度训练（Mixed Precision Training）功能，允许我们在不牺牲模型精度的情况下，大幅减少显存占用并提高训...

2026-02-07andy阅读(85)评论(0)

在深度学习模型部署到边缘设备或服务器时，模型量化（如 INT8）是提高推理速度和降低内存占用的关键技术。然而，对于大型语言模型（LLM）和现代 Transformer 架构，直接使用传统的后训练量化（PTQ）方法往往会导致显著的精度下降，甚...

2026-02-04andy阅读(150)评论(0)

简介：夜间红外数据的挑战座舱监控系统（DMS/OMS）通常使用红外（IR）摄像头。在夜间或极低光照环境下，红外图像虽然能捕捉到关键特征（如眼睛、手部），但其整体像素值范围（动态范围）非常狭窄，且背景噪声相对较高。当我们将浮点模型（FP3...