标签：g

如何利用 Kubernetes 的 GPU Share 机制让多个小模型共用一块 80G 显存而不互相干扰？

2026-02-17andy阅读(120)评论(0)

在处理大规模深度学习部署时，经常遇到这样的问题：一块拥有 80GB 显存的高端 GPU（如 NVIDIA A100/H100）运行着许多只需要 5GB 或 10GB 显存的小模型。传统的 GPU 调度机制要么独占整块 GPU，造成资源浪费，...

2026-02-07andy阅读(114)评论(0)

对于许多购买了低配VPS（例如1GB内存）的个人站长来说，一个常见的担忧是服务商是否使用了“内存气球”（Memory Ballooning）技术，并借此随时抽走我的内存。这个问题的答案是：内存气球确实允许宿主机在需要时回收你的部分内存，但只...

2026-02-07andy阅读(124)评论(0)

如何理解 JVM 中的指针压缩技术：为什么堆内存超过 32G 会性能下降在高性能 Java 应用的部署中，配置 JVM 堆内存大小（Heap Size）是一个核心环节。开发者常常会听到一个经验法则：如果使用 64 位 JVM，最好不要让堆...