欢迎光临
我们一直在努力

标签:并发

ai-infra

假如你是架构师:如何在保持低延时的前提下,利用多副本模型支撑百万级的并发长文本请求?

andy阅读(40)评论(0)

作为架构师,支撑百万级的并发长文本(如大模型推理)请求,同时保证低延时,是一个极具挑战性的任务。长文本推理的挑战在于:推理时间长(Token生成速度慢),且显存消耗大(KV Cache占用)。纯粹的增加服务器并不能解决根本问题,我们需要一套...

智能座舱

座舱视觉感知系统优化:如何通过算子融合实现 DMS 疲劳监测与多手势识别的并发执行

andy阅读(83)评论(0)

在智能汽车座舱中,DMS(驾驶员监测系统)和手势识别是提升安全性和用户体验的关键技术。然而,在嵌入式硬件(如车载SoC)上,同时运行这两个复杂的视觉任务会带来巨大的计算压力和延迟。解决这一问题的核心在于模型架构优化与推理图算子融合。 算子融...