标签：上下文

Long Context 专题：为了跑通 1M 上下文，Infra 层需要做哪些 Ring Attention 优化？

2026-02-11andy阅读(81)评论(0)

处理百万级（1M）上下文长度是大型语言模型（LLM）面临的巨大挑战。传统的自注意力机制（Self-Attention）在序列长度$N$上具有$O(N^2)$的计算复杂度和内存占用，导致单个GPU无法容纳如此巨大的KV Cache和中间激活。...

2026-02-02andy阅读(130)评论(0)

在现代 Python 编程中，尤其是使用 asyncio 进行高并发开发时，管理状态和上下文是一个常见挑战。如果你习惯使用全局变量来存储请求相关的信息（例如，请求 ID、用户会话数据），在异步环境中会立即遇到问题：当事件循环在不同任务之间切...