第一部分:昇腾(Ascend)生态深度适配
如何在昇腾(Ascend)平台上深度适配并优化 PyTorch 模型训练 随着国产算力的崛起,昇腾(Ascend)系列芯片已成为 AI 开发者的重要选择。很多开发者习惯了 NVIDIA + CUDA 的生态,初次接触昇腾的 CANN(Com...
如何在昇腾(Ascend)平台上深度适配并优化 PyTorch 模型训练 随着国产算力的崛起,昇腾(Ascend)系列芯片已成为 AI 开发者的重要选择。很多开发者习惯了 NVIDIA + CUDA 的生态,初次接触昇腾的 CANN(Com...
如何使用 NCNN 框架在移动端高效部署 PyTorch 模型 在端侧 AI 落地过程中,如何让原本在服务器跑的重量级模型在手机端「跑得快、不发烫」是核心挑战。腾讯开发的 NCNN 是一个针对移动端优化的极致高性能神经网络推理框架,它无第三...
如何解决 PyTorch 模型迁移至昇腾 NPU 时的算子性能瓶颈与精度漂移 在国产化替代的浪潮中,将深度学习模型从 CUDA 环境迁移到华为昇腾(Ascend)CANN 平台,绝非简单的 device=’cuda’...
如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型 随着国产化算力需求的爆发,将现有的 AI 模型从 CUDA 环境迁移到国产昇腾(Ascend)平台已成为许多开发者的核心任务。得益于华为提供的 CANN(C...
如何通过 A/B 测试评估移动端模型性能:除了延时外,你还需要关注哪些工程指标 在将深度学习模型(如基于 ncnn、mnn 或 TFLite 优化的模型)推向千万量级的移动端用户时,实验室内的 Benchmark 结果往往是“理想化”的。由...
怎么解决深度学习模型在不同手机芯片上的推理结果不一致问题 在将AI模型部署到移动端(如安卓或iOS)时,开发者经常发现同样的模型在不同手机上的输出结果存在微小差异。这种现象在跨芯片平台(如从高通骁龙迁移到联发科天玑)或跨推理后端(如从CPU...
背景 随着《个人信息保护法》等法规的完善,开发者在处理用户数据(如人脸、语音、健康数据)时面临巨大的合规压力。传统的云端训练需要将原始数据上传服务器,这存在严重隐私风险。端侧训练(On-device Learning)技术通过在用户手机本地...
对于追求极致性能的端侧 AI 应用来说,找到模型推理的性能瓶颈是加速优化的第一步。我们通常结合使用静态分析工具 (Netron) 和动态分析工具 (系统 Profiler) 来实现这一目标。 Netron 帮助我们理解模型的结构和计算流,而...
怎么解决移动端AI推理时间不稳定问题:详解CPU降频机制与应对策略 在移动端部署AI模型时,开发者经常会发现一个令人困扰的现象:模型的推理延迟(Latency)极不稳定。第一次运行可能非常快,但连续运行几次后,延迟会显著增加,甚至在两次间隔...
在部署深度学习模型,尤其是在边缘设备或对实时性要求极高的服务器上时,用户经常会抱怨模型第一次执行的延迟特别高。这个延迟通常不是模型本身的推理时间,而是由首次执行的初始化开销所导致,包括JIT编译、显存分配、驱动程序加载以及计算内核(Kern...