标签：m

Long Context 专题：为了跑通 1M 上下文，Infra 层需要做哪些 Ring Attention 优化？

2026-02-11andy阅读(111)评论(0)

处理百万级（1M）上下文长度是大型语言模型（LLM）面临的巨大挑战。传统的自注意力机制（Self-Attention）在序列长度$N$上具有$O(N^2)$的计算复杂度和内存占用，导致单个GPU无法容纳如此巨大的KV Cache和中间激活。...

2026-02-10andy阅读(377)评论(0)

随着大模型的体积不断增长，如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片，特别是最新的M3系列，通过其独特的统一内存架构（Unified Memory Architecture, UMA），为端侧大模型推理...

2026-02-08andy阅读(115)评论(0)

对于使用 512M 内存的低配 VPS（俗称“小鸡”）的个人站长来说，配置 Swap 虚拟内存几乎是保证系统稳定运行的必备操作。然而，很多人担心设置过大的 Swap 或频繁使用 Swap 会加速 SSD/NVMe 硬盘的磨损。本文将为您提供...