标签：芯片

Android NNAPI 底层原理详解：从神经网络抽象层看跨芯片厂商的算子分发逻辑

2026-03-09andy阅读(25)评论(0)

如何理解 Android NNAPI 的算子分发逻辑：从底层架构到实战调用 Android NNAPI (Neural Networks API) 是 Android 系统中专门为机器学习推理设计的 C API。它不直接运行模型，而是作为“...

2026-02-28andy阅读(65)评论(0)

如何通过系统底层指令精准监控国产AI芯片的算力能效比在智算中心和国产化替代的趋势下，针对国产AI芯片（如华为昇腾、寒武纪、元枢等）的精细化监控变得至关重要。本文将以昇腾（Ascend）系列芯片为例，重点讲解如何通过底层指令获取实时功耗与算...

2026-02-27andy阅读(54)评论(0)

如何利用国产分布式框架实现跨异构芯片的混合调度在国产化替代的大背景下，很多企业的数据中心不再是单一的架构，而是演变为一个包含华为昇腾（Ascend）、寒武纪（Cambricon）等多种国产AI芯片的异构算力池。如何打破厂商壁垒，在同一个集...

2026-02-26andy阅读(64)评论(0)

1. 背景：为什么相同的量化模型在不同芯片上精度不同？在国产化适配过程中，开发者常遇到一个困惑：在 PyTorch 下验证良好的 INT8 量化模型，部署到昇腾（Ascend）、寒武纪（Cambricon）或昆仑芯（KunlunCore）...

2026-02-26andy阅读(74)评论(0)

如何解决国产 AI 芯片下的集合通信瓶颈：深度对比 HCCL 与 NCCL 在 Ring AllReduce 上的差异在分布式深度学习中，集合通信（Collective Communication）是决定训练效率的关键。在 NVIDIA ...

2026-02-22andy阅读(60)评论(0)

怎么解决深度学习模型在不同手机芯片上的推理结果不一致问题在将AI模型部署到移动端（如安卓或iOS）时，开发者经常发现同样的模型在不同手机上的输出结果存在微小差异。这种现象在跨芯片平台（如从高通骁龙迁移到联发科天玑）或跨推理后端（如从CPU...

2026-02-13andy阅读(102)评论(0)

在移动端 AI 推理领域，MNN（阿里巴巴）和 NCNN（腾讯）是两个最受欢迎的深度学习推理框架。它们的性能差异往往取决于底层的硬件加速能力和驱动适配情况，尤其是在面对高通（Qualcomm Adreno）和联发科（MediaTek Mal...

2026-02-10andy阅读(193)评论(0)

随着大模型的体积不断增长，如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片，特别是最新的M3系列，通过其独特的统一内存架构（Unified Memory Architecture, UMA），为端侧大模型推理...

2026-02-07andy阅读(81)评论(0)

车载信息娱乐系统（IVI）和高级驾驶辅助系统（ADAS）对低延迟AI推理的需求日益增长。传统的云端AI模型部署流程复杂且延迟高，因此轻量级的端侧推理库（如NCNN和MNN）成为车载AI功能快速原型化的理想选择。本文将聚焦于如何利用NCNN，...

2026-02-02andy阅读(123)评论(0)

在汽车电子和智能座舱领域，集成大型语言模型（LLM）以提供自然语言交互的智能管家服务是趋势。然而，车载芯片（如高通SA8155或英伟达Orin等）虽然算力强大，但在内存（RAM/VRAM）方面相对桌面级或服务器级GPU资源有限。一个7B参数...