标签：算力

怎样通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化

2026-03-11andy阅读(16)评论(0)

如何通过 Vulkan 接口压榨移动端 GPU 算力：详解计算管线与内存屏障的极致优化在移动端 AI 推理框架（如 NCNN、MNN）中，Vulkan 已经成为跨平台 GPU 加速的事实标准。相比传统的 OpenGL ES，Vulkan ...

2026-02-28andy阅读(65)评论(0)

如何通过系统底层指令精准监控国产AI芯片的算力能效比在智算中心和国产化替代的趋势下，针对国产AI芯片（如华为昇腾、寒武纪、元枢等）的精细化监控变得至关重要。本文将以昇腾（Ascend）系列芯片为例，重点讲解如何通过底层指令获取实时功耗与算...

2026-02-27andy阅读(61)评论(0)

如何构建标准的国产化算力容器镜像：详解底层硬件映射与二进制文件注入在国产化 AI 浪潮中，昇腾 (Ascend)、寒武纪 (Cambricon)、海光 (DCU) 等硬件层出不穷。由于各家厂商的驱动模型与 CUDA 体系存在差异，开发者往...

2026-02-22andy阅读(90)评论(0)

如何使用 CANN 插件在国产昇腾 NPU 上快速迁移并加速 PyTorch 模型随着国产化算力需求的爆发，将现有的 AI 模型从 CUDA 环境迁移到国产昇腾（Ascend）平台已成为许多开发者的核心任务。得益于华为提供的 CANN（C...

2026-02-16andy阅读(72)评论(0)

在高性能计算（HPC）领域，理解何时工作负载受限于计算能力（Compute Bound）或内存带宽（Memory Bound）至关重要。这通常通过“屋顶线模型”（Roofline Model）来分析。对于矩阵乘法（GEMM）任务，我们希望...

2026-02-14andy阅读(80)评论(0)

在大型语言模型（LLM）的推理过程中，通常分为两个关键阶段：Prefill（预填充/处理Prompt）阶段和Decode（解码/自回归生成）阶段。这两个阶段对硬件资源的需求截然不同，理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义：...

2026-02-14andy阅读(76)评论(0)

在端侧AI应用中，尤其是在处理连续、低延迟且低功耗的音频（如关键词识别）和传感器数据流时，CPU往往效率不高，GPU功耗又过大。高通骁龙芯片中的 Hexagon DSP (Digital Signal Processor) 由于其擅长并行信...

2026-02-11andy阅读(82)评论(0)

简介：软件定义AI算力与显存池化在现代AI训练和推理集群中，GPU显存（VRAM）是核心且昂贵的资源。传统的资源分配方式是静态的，即一个任务独占一台服务器上的一个或多个GPU及其全部显存。这种模式常导致两个主要问题：资源碎片化和低利用率。...

2026-02-10andy阅读(67)评论(0)

存算一体架构（CIM）：AI算力下一阶段的性能飞跃还是工程挑战？随着AI模型（尤其是大语言模型和Transformer架构）的规模爆炸式增长，对算力的需求也急剧上升。然而，传统的冯·诺依曼（Von Neumann）架构正在成为限制AI加速...

2026-01-31andy阅读(97)评论(0)

在智能座舱（Smart Cockpit）系统中，视觉模型（如高分辨率感知、驾驶员/乘客监控DMS/OMS模型）往往体积庞大且计算密集。单个算力单元（如特定的NPU或DSP）可能无法提供足够的内存或吞吐量。模型分片（Model Shardin...