深度学习

第14页

怎样利用昇腾算子开发工具 TIK C++ 手写高性能算子：解决模型不支持算子的终极方案

2026-02-24andy阅读(315)评论(0)

如何利用 Ascend C 手写高性能算子：解决昇腾模型不支持算子的终极方案在将深度学习模型部署到昇腾（Ascend）昇腾 AI 处理器时，经常会遇到某些算子在 CANN 算子库中不存在或者性能不达标的情况。这时，使用 Ascend C（...

2026-02-23andy阅读(301)评论(0)

如何在昇腾（Ascend）平台上深度适配并优化 PyTorch 模型训练随着国产算力的崛起，昇腾（Ascend）系列芯片已成为 AI 开发者的重要选择。很多开发者习惯了 NVIDIA + CUDA 的生态，初次接触昇腾的 CANN（Com...

2026-02-23andy阅读(314)评论(0)

如何使用 NCNN 框架在移动端高效部署 PyTorch 模型在端侧 AI 落地过程中，如何让原本在服务器跑的重量级模型在手机端「跑得快、不发烫」是核心挑战。腾讯开发的 NCNN 是一个针对移动端优化的极致高性能神经网络推理框架，它无第三...

2026-02-22andy阅读(317)评论(0)

如何通过 A/B 测试评估移动端模型性能：除了延时外，你还需要关注哪些工程指标在将深度学习模型（如基于 ncnn、mnn 或 TFLite 优化的模型）推向千万量级的移动端用户时，实验室内的 Benchmark 结果往往是“理想化”的。由...

2026-02-22andy阅读(281)评论(0)

怎么解决深度学习模型在不同手机芯片上的推理结果不一致问题在将AI模型部署到移动端（如安卓或iOS）时，开发者经常发现同样的模型在不同手机上的输出结果存在微小差异。这种现象在跨芯片平台（如从高通骁龙迁移到联发科天玑）或跨推理后端（如从CPU...

2026-02-22andy阅读(414)评论(0)

背景随着《个人信息保护法》等法规的完善，开发者在处理用户数据（如人脸、语音、健康数据）时面临巨大的合规压力。传统的云端训练需要将原始数据上传服务器，这存在严重隐私风险。端侧训练（On-device Learning）技术通过在用户手机本地...

2026-02-17andy阅读(280)评论(0)

对于追求极致性能的端侧 AI 应用来说，找到模型推理的性能瓶颈是加速优化的第一步。我们通常结合使用静态分析工具 (Netron) 和动态分析工具 (系统 Profiler) 来实现这一目标。 Netron 帮助我们理解模型的结构和计算流，而...

2026-02-17andy阅读(379)评论(0)

怎么解决移动端AI推理时间不稳定问题：详解CPU降频机制与应对策略在移动端部署AI模型时，开发者经常会发现一个令人困扰的现象：模型的推理延迟（Latency）极不稳定。第一次运行可能非常快，但连续运行几次后，延迟会显著增加，甚至在两次间隔...

2026-02-17andy阅读(308)评论(0)

在部署深度学习模型，尤其是在边缘设备或对实时性要求极高的服务器上时，用户经常会抱怨模型第一次执行的延迟特别高。这个延迟通常不是模型本身的推理时间，而是由首次执行的初始化开销所导致，包括JIT编译、显存分配、驱动程序加载以及计算内核（Kern...

2026-02-17andy阅读(325)评论(0)

深度学习模型在手机或嵌入式设备上运行时，性能优化不仅仅是为了追求速度，更关键的是控制功耗和散热。高计算负载会导致设备温度急剧上升，一旦达到系统设定的阈值，操作系统会强制降低CPU/GPU的工作频率（即热降频或Thermal Throttli...