标签：推理

为什么大模型推理的 Prefill 阶段是算力受限，而 Decode 阶段却是访存受限？

2026-07-12andy阅读(402)评论(0)

在大型语言模型（LLM）的推理过程中，通常分为两个关键阶段：Prefill（预填充/处理Prompt）阶段和Decode（解码/自回归生成）阶段。这两个阶段对硬件资源的需求截然不同，理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义：...

2026-07-12andy阅读(380)评论(0)

如何通过 Qualcomm AI Stack 优化 8295 上的大模型推理：从算子下沉到内存压榨高通 SA8295P (骁龙 8295) 作为当前智能座舱的性能标杆，其集成的 Hexagon Tensor Processor (HTP)...

2026-07-12andy阅读(374)评论(0)

如何通过 AclLite 封装大幅简化昇腾推理程序的开发流程在国产昇腾（Ascend）芯片上进行 AI 推理开发时，开发者通常需要直接面对 CANN (Compute Architecture for Neural Networks) 的...

2026-07-12andy阅读(274)评论(0)

前言在安卓端侧推理（如使用 MNN、NCNN 或 TFLite）时，经常会遇到框架不支持某些特殊算子（如特定的激活函数、自定义的特征融合层）的情况。此时，如果回退到 CPU 执行会造成严重的性能瓶颈。本文将介绍如何编写一个 OpenGL ...

2026-07-05andy阅读(311)评论(0)

背景在嵌入式设备或 Android/iOS 开发中，AI 模型的推理性能不仅取决于算法复杂度，还深受系统资源调度的影响。很多开发者会发现，ncnn 在连续推理时，由于系统底层的 malloc 和 free 导致内存碎片或内核锁竞争，从而引...

2026-04-14andy阅读(347)评论(0)

资源介绍在 AI 领域，模型推理加速是让 AI 应用真正走向落地的关键。今天我为大家深度安利一个来自 Hugging Face 社区的宝藏级教程：《Transformers 性能与可伸缩性指南》（Performance and Scala...

2026-04-06andy阅读(289)评论(0)

1. 为什么关注端侧推理优化？在AI自学过程中，我发现虽然云端算力强大，但端侧（如手机、笔记本、嵌入式设备）的本地推理才是降低延迟、保护隐私、减少成本的关键。今天分享一个顶级开源资源：MLC LLM (Machine Learning C...

2026-03-28andy阅读(301)评论(0)

在高频交易（HFT）领域，胜负往往在微秒之间。当深度学习模型（如Transformer或LSTM）被引入交易策略时，传统的Python Inference Server（如Flask或FastAPI）因其GIL锁和高昂的序列化开销，完全无法...

2026-03-24andy阅读(284)评论(0)

如何利用 MNN 快速实现车载 AI 功能原型：从 NDK 开发到 GPU 加速适配在车载 AI 开发中，座舱视觉（如 DMS 疲劳驾驶检测、OMS 乘员监控）和辅助驾驶功能对实时性要求极高。车载芯片（如高通 8155、芯驰 X9 系列）...

2026-03-21andy阅读(272)评论(0)

如何通过离线ASR与流式推理实现座舱语音百毫秒级响应在智能座舱场景下，语音交互的“实时感”是提升用户体验的关键。传统的云端语音识别（ASR）受限于网络波动，延迟往往高达 1-2 秒。本文将深入探讨如何利用离线流式推理（Streaming...