标签：延迟

如何利用vLLM或FasterTransformer加速LLM的低延迟推理部署？

2026-03-04andy阅读(3)评论(0)

如何利用 vLLM 实现大语言模型的高吞吐与低延迟推理部署在 LLM（大语言模型）的生产级部署中，推理延迟和吞吐量是衡量系统性能的核心指标。传统的推理框架由于 KV Cache 管理效率低下，往往面临内存碎片化严重、显存利用率低等挑战。v...

2026-03-03andy阅读(6)评论(0)

如何利用 MNN 缓存机制缩短首帧推理延迟：解决预热过程中的卡顿问题在移动端部署 AI 模型时，开发者常遇到“首帧卡顿”现象。这主要是因为 MNN 在首次推理时需要进行图优化、内存布局分配，尤其是使用 GPU (OpenCL/Vulkan...

2026-02-28andy阅读(27)评论(0)

如何理解 Go 语言 defer 性能的演进：从堆分配到开放编码在 Go 语言中，defer 是一个非常实用的关键字，用于确保资源（如文件句柄、互斥锁）在函数返回前被正确释放。然而，defer 在早期版本中的性能开销一直是开发者讨论的热点...

2026-02-24andy阅读(284)评论(0)

1. 为什么大模型推理会受限于 HBM？在大模型（LLM）推理过程中，Transformer 架构中存在大量的逐元素（Element-wise）操作，如 Add、LayerNorm、Mul 和 Silu 等。在标准的执行流中，每个算子都需...

2026-02-16andy阅读(44)评论(0)

在移动端进行实时视频流AI推理，最大的性能瓶颈往往不在模型计算本身，而在于数据在CPU和GPU之间的搬运（内存拷贝）以及颜色空间转换（YUV到RGB）。传统的处理流程是：摄像头采集YUV数据 -> CPU接收 -> CPU进行YUV转RGB...

2026-02-06andy阅读(89)评论(0)

如何通过本地持久化卷解决K8s数据库I/O延迟问题：进阶性能优化方案在Kubernetes (K8s) 中运行数据库等对I/O性能要求极高的有状态应用时，传统的网络存储（如NFS、云提供商的EBS或GCE PD）往往会引入不可接受的I/O...

2026-02-06andy阅读(73)评论(0)

在构建灵活的深度学习模型时，我们经常需要创建自定义 Layer（层）或 Model（模型）。然而，这些自定义组件内部的权重（例如，全连接层中的 W 矩阵）往往依赖于输入数据的特征维度。如果我们在 Layer 的 __init__ 方法中就尝...

2026-02-05andy阅读(115)评论(0)

对于个人站长和技术爱好者来说，利用多家云服务商（如阿里云、腾讯云、搬瓦工、Vultr等）的机器进行数据库主从复制或异地容灾是一种常见的架构。然而，跨厂商机器的互联性能，尤其是延迟，直接决定了数据库同步的速度和稳定性。本篇文章将聚焦于如何使...

2026-02-02andy阅读(62)评论(0)

导言：XAI与低延迟的冲突随着AI模型在关键业务中的广泛应用，模型的可解释性（eXplainable AI, XAI）已成为部署的必备条件。然而，传统的后验解释性方法，如LIME（Local Interpretable Model-agn...

2025-12-24andy阅读(122)评论(0)

在高性能AI基础设施中，多GPU并行技术是提升模型检索（如向量搜索、大模型推理）吞吐量和降低延迟的关键。然而，当我们将模型或数据进行分片（Sharding）部署到多个GPU上时，一个不可避免的性能瓶颈随之而来：结果分片同步和聚合的延迟损耗。...