欢迎光临
我们一直在努力

标签:文本

ai-infra

假如你是架构师:如何在保持低延时的前提下,利用多副本模型支撑百万级的并发长文本请求?

andy阅读(3)评论(0)

作为架构师,支撑百万级的并发长文本(如大模型推理)请求,同时保证低延时,是一个极具挑战性的任务。长文本推理的挑战在于:推理时间长(Token生成速度慢),且显存消耗大(KV Cache占用)。纯粹的增加服务器并不能解决根本问题,我们需要一套...