标签：模型

第11页

投机采样（Speculative Decoding）详解：用小模型带路给大模型加速的黑科技

2026-02-03andy阅读(250)评论(0)

投机采样（Speculative Decoding）详解：用小模型带路给大模型加速的黑科技随着大型语言模型（LLM）的尺寸不断增大，推理速度成为了制约其广泛应用的关键瓶颈。标准的自回归（Autoregressive）采样模式要求模型每生成...

2026-02-03andy阅读(163)评论(0)

Kubernetes (K8s) 的核心设计要求之一是“IP-per-Pod”模型，即每个 Pod 都有一个唯一的 IP 地址，并且所有 Pod 都可以无需 NAT 地互相通信，无论它们位于哪个节点上。在单节点内部，这相对容易实现（通常通过...

2026-02-03andy阅读(117)评论(0)

在车载监控系统（OMS）或驾驶员状态监测系统（DMS）中，需要实时、高效地处理来自高清摄像头的原始视频流。传统的I/O操作（如read()）涉及多次数据拷贝：从摄像头硬件缓冲区到内核缓冲区，再从内核缓冲区拷贝到用户空间缓冲区。对于高分辨率、...

2026-02-02andy阅读(195)评论(0)

在 AI 推理加速领域，人们通常关注 FLOPS 或计算密度，但对于延迟敏感的场景（尤其是使用小型模型或具有许多顺序层的大型模型），CPU 发射（Kernel Launch）开销往往会成为主要的性能瓶颈。每次 PyTorch 调用 GPU ...

2026-02-02andy阅读(154)评论(0)

梯度检查点（Checkpointing Recomputation）：用时间换空间的终极手段随着深度学习模型规模的爆炸式增长，特别是大型语言模型（LLMs）的出现，训练过程中 GPU 显存不足（OOM, Out Of Memory）成为了...

2026-02-01andy阅读(107)评论(0)

如何使用 PyTorch FSDP 解决超大模型单卡显存不足问题随着大语言模型（LLM）的参数量突破百亿甚至万亿级别，传统的分布式训练方案（如DDP，数据并行）已经无法满足需求，因为DDP要求每张GPU都复制完整的模型权重、梯度和优化器状...

2026-01-31andy阅读(158)评论(0)

为什么 ZeRO-3 能让单卡跑起“塞不下”的模型？随着大语言模型（LLM）的尺寸不断膨胀，GPU的显存往往成为训练过程中的最大瓶颈。一个1750亿参数的模型（如GPT-3），即使使用混合精度（FP16/BF16），仅参数、梯度和优化器状...

2026-01-31andy阅读(171)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...

2026-01-31andy阅读(222)评论(0)

计算机体系结构中有一个长期存在的瓶颈，称为“内存墙”（Memory Wall）。它描述了处理器速度增长（基于摩尔定律）远快于内存访问速度和带宽增长的现象。对于传统的CPU计算任务，这早已是性能限制因素；而对于今天的大型语言模型（LLMs），...

2026-01-31andy阅读(140)评论(0)

在智能座舱（Smart Cockpit）系统中，视觉模型（如高分辨率感知、驾驶员/乘客监控DMS/OMS模型）往往体积庞大且计算密集。单个算力单元（如特定的NPU或DSP）可能无法提供足够的内存或吞吐量。模型分片（Model Shardin...