标签：算子

安卓 GPU 加速进阶：如何通过自定义 OpenGL ES Shader 实现推理库不支持的核心算子

2026-07-26andy阅读(302)评论(0)

前言在安卓端侧推理（如使用 MNN、NCNN 或 TFLite）时，经常会遇到框架不支持某些特殊算子（如特定的激活函数、自定义的特征融合层）的情况。此时，如果回退到 CPU 执行会造成严重的性能瓶颈。本文将介绍如何编写一个 OpenGL ...

2026-07-26andy阅读(639)评论(0)

如何利用华为迁移工具自动化实现 CUDA 到 CANN 的算子代码映射随着国产算力加速卡的应用普及，将原本运行在 NVIDIA GPU 上的 CUDA 算子迁移到华为昇腾 Ascend NPU 环境已成为开发者的核心痛点。本文将详解如何利...

2026-07-26andy阅读(445)评论(0)

如何通过 Qualcomm AI Stack 优化 8295 上的大模型推理：从算子下沉到内存压榨高通 SA8295P (骁龙 8295) 作为当前智能座舱的性能标杆，其集成的 Hexagon Tensor Processor (HTP)...

2026-07-26andy阅读(464)评论(0)

如何针对瑞芯微 RK3588 NPU 进行算子裁剪与加速：实现边缘 AI 的极致响应在边缘计算领域，瑞芯微 RK3588 以其 6TOPS 的 NPU 算力成为国产芯片的佼佼者。然而，许多开发者发现直接部署模型时，推理速度远达不到预期。这...

2026-07-26andy阅读(347)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-07-05andy阅读(395)评论(0)

如何通过流水线排布优化摩尔线程 MT-S 系列显卡的 Transformer 算子性能在国产 GPU 适配过程中，摩尔线程（Moore Threads）的 MUSA 架构表现出色。但要榨干其 MT-S 系列（如 MT-S80/MT-S30...

2026-04-13andy阅读(414)评论(0)

零基础进阶大厂！手把手带你免费自学高性能AI算子开发实战 1. 资源介绍：为什么要学它？如果你想在AI领域深耕，只会调包是不够的。随着模型规模的增长，如何让模型跑得更快成为了核心竞争力。CUDA Mode 是一个由全球顶尖工程师共同维护的...

2026-03-23andy阅读(329)评论(0)

如何优化座舱 AI 模型冷启动：通过权重预加载与算子缓存实现“开门即用” 在智能座舱（IVI）场景中，AI 模型的“冷启动”耗时直接影响用户对系统的“第一印象”。当车主进入座舱，语音交互（ASR/NLP）或视觉感知（DMS/OMS）模型如果...

2026-03-23andy阅读(313)评论(0)

如何解决车载视觉模型 TensorRT 转换中的算子不支持痛点在车载 AI 部署领域，将 PyTorch 模型转换为 TensorRT 引擎是提升推理速度的必经之路。然而，由于车载视觉模型常包含一些特殊的采样（如 GridSample）或...

2026-03-23andy阅读(251)评论(0)

如何针对座舱红外摄像头模型优化夜间低光照环境下的算子精度在智能座舱场景中，红外摄像头（IR）是实现疲劳驾驶监测（DMS）和乘客监测（OMS）的核心硬件。然而，夜间低光照环境下，IR图像往往存在高噪点、对比度低的问题。当模型从FP32量化为...