人工智能和大数据

第20页

详解安卓平台下 OpenCL 的隐藏坑点：为什么在某些机型上 GPU 推理反而不如 CPU 快速

2026-03-12andy阅读(356)评论(0)

如何解决安卓 OpenCL GPU 推理比 CPU 慢的“负优化”问题？在端侧 AI 开发中，很多开发者习惯性地认为“GPU 肯定比 CPU 快”。但在安卓平台上，当你兴冲冲地把 NCNN、MNN 或 TNN 切换到 OpenCL 后端时...

2026-03-12andy阅读(236)评论(0)

引言在企业内部，随着业务对大语言模型（LLM）需求的激增，碎片化的模型部署会导致资源浪费和运维混乱。构建 LLM MaaS（Model-as-a-Service）平台的核心在于提供统一的接入层、完善的权限控制以及自动化的模型调度。本文将展...

2026-03-11andy阅读(368)评论(0)

如何解决 Android 异构计算中的 Fallback 难题：当 NPU 算子不支持时如何平滑回退到 CPU 背景与痛点在 Android 端侧 AI 开发中，利用 NPU（如高通 Hexagon、联发科 APU）能显著降低推理延时和功...

2026-03-11andy阅读(258)评论(0)

如何构建一个极致省钱的 Serverless MLOps 蓝图在 AI 模型部署的早期阶段，许多团队都会面临一个棘手的问题：为了维持一个 24/7 在线的推理端点，即使在没有流量的情况下，昂贵的 GPU 实例（如 NVIDIA A10/A...

2026-03-11andy阅读(412)评论(0)

引言在移动端 AI 部署中，为了追求极致的能效比，通常会将计算任务从 CPU/GPU 卸载到专用的 DSP（数字信号处理器）上。高通 Hexagon DSP 凭借其 HVX（Hexagon Vector Extensions）指令集，能够...

2026-03-11andy阅读(267)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-03-11andy阅读(250)评论(0)

在现代 AI 基础设施中，MLOps 平台不仅要处理常规的模型训练与部署，还需面对 GPU 资源碎片化、模型性能漂移以及复杂推理流水线中的延迟抖动。传统的基于阈值的告警往往导致‘告警风暴’。本文将介绍如何结合 Prometheus 监控数据...

2026-03-10andy阅读(336)评论(0)

背景在 Android 端侧 AI 推理场景中，模型输入往往来自于相机预览流或图像处理器。传统的做法是将数据从 Vendor 进程拷贝到 App 进程，再拷贝给推理引擎。对于 4K 图像或高频推理任务，这种 memcpy 会显著增加延迟并...

2026-03-10andy阅读(270)评论(0)

如何利用模型服务网格在 LLM 部署中实现流量管理与安全策略在生成式 AI 时代，大语言模型（LLM）的部署不再只是简单的端口映射。由于 LLM 推理具有高延迟、显存密集、请求周期长等特点，传统的微服务治理手段难以直接复用。本文将重点探讨...

2026-03-10andy阅读(241)评论(0)

如何优化 Android 端 AI 模块启动：详解动态库的延迟加载策略在 Android 端集成 NCNN、MNN 或 TensorFlow Lite 等 AI 框架时，开发者常面临一个难题：这些框架生成的 .so 动态链接库通常很大（往...