怎样通过共享显存(Shared Memory)实现多进程间的模型权重共享:大幅降低 App 内存占用
如何通过共享内存实现多进程模型权重共享:大幅降低 App 内存占用 在端侧推理或高并发 Web 服务场景中,为了提升吞吐量,我们常会启动多个进程并行处理推理请求。然而,如果每个进程都独立加载一份模型(例如一个 2GB 的 BERT 模型),...
如何通过共享内存实现多进程模型权重共享:大幅降低 App 内存占用 在端侧推理或高并发 Web 服务场景中,为了提升吞吐量,我们常会启动多个进程并行处理推理请求。然而,如果每个进程都独立加载一份模型(例如一个 2GB 的 BERT 模型),...