ai-infra

第3页

面向未来的 AI 操作系统：当计算不再以进程为单位，而是以算子流为中心

2026-02-13andy阅读(84)评论(0)

在传统的操作系统（OS）中，计算的最小单位是进程（Process）或线程（Thread）。应用程序通过调用系统API，由进程负责资源的分配（CPU时间片、内存空间、I/O访问）。这种模型在处理通用计算任务时非常高效，但面对现代AI和大数据的...

2026-02-12andy阅读(112)评论(0)

循环分块（Loop Tiling），也称为循环阻塞（Loop Blocking），是高性能计算中优化内存局部性（Temporal and Spatial Locality）的关键技术。通过将大型计算任务分解为可放入缓存（Cache）的小块，...

2026-02-12andy阅读(113)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...

2026-02-12andy阅读(144)评论(0)

在当前的大模型（LLM）时代，NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来，形成一...

2026-02-12andy阅读(155)评论(0)

大规模语言模型（LLM）在生产环境中的部署面临两大核心挑战：极低的延迟和极高的吞吐量。NVIDIA TensorRT-LLM（TRT-LLM）通过优化LLM结构和GPU调度，极大地提升了推理性能。然而，要将其转化为高可用、可水平扩展的企业级...

2026-02-11andy阅读(108)评论(0)

处理百万级（1M）上下文长度是大型语言模型（LLM）面临的巨大挑战。传统的自注意力机制（Self-Attention）在序列长度$N$上具有$O(N^2)$的计算复杂度和内存占用，导致单个GPU无法容纳如此巨大的KV Cache和中间激活。...

2026-02-11andy阅读(116)评论(0)

简介：软件定义AI算力与显存池化在现代AI训练和推理集群中，GPU显存（VRAM）是核心且昂贵的资源。传统的资源分配方式是静态的，即一个任务独占一台服务器上的一个或多个GPU及其全部显存。这种模式常导致两个主要问题：资源碎片化和低利用率。...

2026-02-11andy阅读(165)评论(0)

AI 集群的功耗挑战与 DVFS 简介随着AI模型规模的爆炸式增长，支持这些模型的计算集群（无论是使用高性能CPU还是GPU）消耗的能源也水涨船高。高功耗不仅意味着高昂的电费，还会带来巨大的散热压力和潜在的硬件故障风险。在许多情况下，集群...

2026-02-11andy阅读(130)评论(0)

在脱离了熟悉的 CUDA 生态后，针对华为昇腾（Ascend）硬件进行深度学习模型推理性能优化，是许多开发者需要面临的挑战。昇腾平台的核心是 CANN（Compute Architecture for Neural Networks）工具链...

2026-02-10andy阅读(369)评论(0)

随着大模型的体积不断增长，如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片，特别是最新的M3系列，通过其独特的统一内存架构（Unified Memory Architecture, UMA），为端侧大模型推理...