标签：占用

怎样优化座舱内多模态大模型的 KV Cache：解决长对话场景下的显存占用溢出难题

2026-03-21andy阅读(40)评论(0)

如何优化座舱多模态大模型的 KV Cache：解决长对话场景下的显存占用溢出难题在智能座舱场景下，多模态大模型（VLM）需要实时处理语音、视觉（如驾驶员监控）和长文本上下文。由于座舱 SoC 的显存（如 Orin X 或骁龙 8295）通...

2026-03-06andy阅读(93)评论(0)

如何通过共享内存实现多进程模型权重共享：大幅降低 App 内存占用在端侧推理或高并发 Web 服务场景中，为了提升吞吐量，我们常会启动多个进程并行处理推理请求。然而，如果每个进程都独立加载一份模型（例如一个 2GB 的 BERT 模型），...

2026-02-16andy阅读(105)评论(0)

为什么 .git 文件夹会变得异常庞大？在使用 Git 进行版本控制的过程中，我们可能会不小心提交一些大型文件，例如编译产物、数据库备份、视频文件或大型数据集。即使您后来将这些大文件从工作目录中删除并提交了新的版本，Git 的历史记录（存...

2026-02-07andy阅读(120)评论(0)

在Kubernetes集群管理中，有时我们需要将某些节点（例如硬件配置特殊、运行关键控制平面组件或计费模式昂贵的节点）隔离出来，只允许特定的、经过授权的关键应用部署在其上。防止普通应用随意占用这些“系统核心节点”的最佳实践是使用污点（Tai...

2026-02-03andy阅读(155)评论(0)

在处理大规模向量数据集时，内存占用往往是制约系统扩展性的瓶颈。Faiss 提供了多种索引结构来优化搜索速度和内存，其中 Scalar Quantizer (SQ) 是一种简单高效的内存优化技术，尤其适用于对精度要求不太严苛的场景。本文将深...

2026-02-01andy阅读(148)评论(0)

在汽车智能座舱环境中，部署多模态大模型（如处理语音、视觉和文本的VLM/LLM）是提升用户体验的关键。然而，座舱系统通常对硬件资源（尤其是GPU/NPU的显存）具有严格的限制。当用户进行长时间的连续对话时，大模型用于存储历史信息的KV Ca...