标签：内存

第3页

解构 vLLM 的物理内存映射：当 Prompt 长度超过预设 Block 时，底层是如何动态借调空间的？

2026-02-15andy阅读(129)评论(0)

vLLM（Virtual Large Language Model）框架凭借其创新的内存管理技术 PagedAttention，极大地提升了LLM推理的吞吐量和效率。PagedAttention借鉴了传统操作系统中的虚拟内存和分页思想，核心...

2026-02-14andy阅读(134)评论(0)

为什么 VRAM 成为大模型训练的瓶颈？在训练参数量巨大的模型（如 Llama-2 70B）时，即使是顶级的GPU（如A100或H100）也面临着显存（VRAM）不足的问题。一个完整的模型训练状态需要存储以下核心组件：模型参数 (P)：...

2026-02-14andy阅读(130)评论(0)

Java 平台自 Java 19（作为孵化模块）以来引入的外部函数与内存 API（Foreign Function and Memory API，简称 FFM API，JEP 442 已在 Java 22 中定稿）彻底改变了 Java 与原...

2026-02-12andy阅读(173)评论(0)

详解神经网络权重的聚类压缩算法：如何利用 Codebook 降低移动端内存带宽压力在移动端和边缘设备上部署深度学习模型时，模型体积和推理时的内存带宽往往是最大的性能瓶颈。传统的量化（如INT8）可以压缩数据，但聚类压缩提供了一种更为灵活且...

2026-02-12andy阅读(182)评论(0)

什么是 ThreadLocal？ ThreadLocal 是 Java 语言中提供的一种机制，用于在多线程环境下提供线程局部变量。这意味着每个线程都拥有其自己的独立变量副本，互不干扰。它常用于存储用户会话信息、事务上下文或请求ID等需要在整...

2026-02-10andy阅读(342)评论(0)

随着大模型的体积不断增长，如何在资源受限的端侧设备上高效运行这些模型成为了关键挑战。Apple M系列芯片，特别是最新的M3系列，通过其独特的统一内存架构（Unified Memory Architecture, UMA），为端侧大模型推理...

2026-02-10andy阅读(162)评论(0)

什么是 volatile？ volatile 是并发编程中一个关键的修饰符，它保证了对共享变量操作的两大特性：可见性（Visibility）和有序性（Ordering）。与 synchronized 锁机制不同，volatile 是一...

2026-02-09andy阅读(123)评论(0)

在构建大规模向量搜索系统时，我们经常面临“非对称搜索”场景：查询向量（Query Vector）通常保持高精度（浮点型），而数据库中的索引向量（Database Vector）为了节省存储和提高I/O效率，会使用量化压缩技术（如Produc...

2026-02-09andy阅读(109)评论(0)

别让你的密钥在内存里裸奔：车载 HSM 硬件安全模块的实战加密方案在现代汽车电子架构中，安全是重中之重。无论是 V2X 通信、安全启动（Secure Boot）还是空中下载（OTA）固件更新，都需要依赖强大的加密技术来保证数据和系统的完整...

2026-02-08andy阅读(141)评论(0)

对于个人站长来说，尤其是那些使用低配（如512MB或1GB内存）VPS资源的用户，内存管理是维持网站稳定运行的关键。在搭建LNMP（Linux + Nginx + MySQL/MariaDB + PHP）环境时，我们通常面临两种主流选择：使...