标签：infra

最后一课：作为 AI Infra 工程师，如何在算法日新月异的时代保持底层技术长青？

2026-02-13andy阅读(89)评论(0)

作为AI基础设施（AI Infra）工程师，我们面临的核心挑战是如何在PyTorch、TensorFlow、JAX等算法框架日新月异、依赖库爆炸式增长的背景下，维护一套稳定、高效且“长青”的底层平台。核心思路是：将快速变化的算法层与相对稳定...

2026-02-11andy阅读(83)评论(0)

处理百万级（1M）上下文长度是大型语言模型（LLM）面临的巨大挑战。传统的自注意力机制（Self-Attention）在序列长度$N$上具有$O(N^2)$的计算复杂度和内存占用，导致单个GPU无法容纳如此巨大的KV Cache和中间激活。...

2026-02-10andy阅读(107)评论(0)

混合专家模型（Mixture-of-Experts, MoE）通过稀疏激活实现模型扩展，显著提升了参数量和训练效率。然而，其核心组件——路由器（Router）——在将输入Token分配给不同专家（Expert）时，带来了两大基础设施挑战：专...

2026-02-09andy阅读(90)评论(0)

深度学习模型训练过程中，如果发现训练损失（Loss）突然飙升并变为NaN（Not a Number），通常标志着梯度爆炸或数值溢出。虽然直接的数值问题需要ML工程师从模型结构、学习率、或数据预处理层面解决，但作为Infra（基础设施）工程师...

2025-11-23andy阅读(248)评论(0)

在AI基础设施（AI Infra）领域，模型服务的稳定性和性能直接影响业务成果。传统的系统监控（如CPU负载、内存）已不足以反映用户体验和模型健康状态。本文将聚焦于如何借鉴Google SRE实践中的“黄金指标”（Golden Signal...