标签：深度

移动端深度学习性能分析：如何利用 sysdump 观察 CPU 降频对推理库 Latency 的致命打击

2026-03-06andy阅读(27)评论(0)

如何利用 sysdump 剖析 CPU 降频对端侧推理性能的致命影响在移动端部署深度学习模型（如使用 ncnn, MNN 或 TFLite）时，开发者经常遇到一个诡异的问题：同样的模型，在实验室测试时推理耗时非常稳定（如 30ms），但集...

2026-02-23andy阅读(45)评论(0)

如何在昇腾（Ascend）平台上深度适配并优化 PyTorch 模型训练随着国产算力的崛起，昇腾（Ascend）系列芯片已成为 AI 开发者的重要选择。很多开发者习惯了 NVIDIA + CUDA 的生态，初次接触昇腾的 CANN（Com...

2026-02-17andy阅读(75)评论(0)

深度学习模型在手机或嵌入式设备上运行时，性能优化不仅仅是为了追求速度，更关键的是控制功耗和散热。高计算负载会导致设备温度急剧上升，一旦达到系统设定的阈值，操作系统会强制降低CPU/GPU的工作频率（即热降频或Thermal Throttli...

2026-02-13andy阅读(84)评论(0)

在移动端 AI 推理领域，MNN（阿里巴巴）和 NCNN（腾讯）是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况，尤其是在面对高通（Qualcomm Adreno）和联发科（MediaTek Mal...

2026-02-11andy阅读(65)评论(0)

为什么 Faiss 会 OOM 或崩溃？在生产环境中处理数千万乃至数十亿的向量时，Faiss 索引的内存消耗是一个核心挑战。导致服务器 OOM (Out of Memory) 或索引崩溃的主要原因通常有两个：索引结构选择不当 (Inde...

2026-02-10andy阅读(108)评论(0)

引言：为什么需要 TrustZone 保护人脸识别？人脸识别（Face Recognition）技术已广泛应用于手机解锁、支付认证等场景。然而，用户的人脸模板数据是高度敏感的生物特征信息。如果这些模板存储在普通的操作系统（Normal W...

2026-02-08andy阅读(77)评论(0)

PyTorch 的 Autograd 机制是其核心竞争力之一。与 TensorFlow 1.x 等框架使用的静态图不同，PyTorch 采用动态计算图（Define-by-Run），这意味着计算图是在前向传播过程中即时构建的。而 backw...

2026-02-07andy阅读(82)评论(0)

Kubernetes的原生调度器（kube-scheduler）功能强大，但在面对特定业务场景，例如强制将某类Pod调度到拥有特定硬件（如FPGA/GPU）的节点组，或者实现复杂的租户隔离计分逻辑时，标准调度策略可能无法满足需求。解决这类...

2026-02-04andy阅读(104)评论(0)

如何利用RDMA/RoCE v2实现大模型训练的极致加速：深度解析‘零拷贝’网络通信随着AI模型规模（如LLM）的爆炸式增长，分布式训练已成为常态。然而，传统的网络通信方式（基于TCP/IP）在多GPU节点间传输海量梯度和参数时，会造成严...

2026-02-04andy阅读(129)评论(0)

简介：夜间红外数据的挑战座舱监控系统（DMS/OMS）通常使用红外（IR）摄像头。在夜间或极低光照环境下，红外图像虽然能捕捉到关键特征（如眼睛、手部），但其整体像素值范围（动态范围）非常狭窄，且背景噪声相对较高。当我们将浮点模型（FP3...