欢迎光临
我们一直在努力

深度学习

详解vLLM推理引擎架构:PagedAttention原理与LLM高效部署实践-汤不热吧

详解vLLM推理引擎架构:PagedAttention原理与LLM高效部署实践

andy阅读(16)

引言:大模型推理的瓶颈与vLLM的诞生 随着大语言模型(LLM)参数规模从数十亿飙升到数千亿,推理部署成为制约落地的核心瓶颈。传统的推理框架(如 Hugging Face Transformers 的 naive 实现)在推理时面临两大痛点...

TensorFlow 2.x 模型量化与部署实战:从训练后量化到TFLite优化-汤不热吧

TensorFlow 2.x 模型量化与部署实战:从训练后量化到TFLite优化

andy阅读(37)

引言:为什么需要模型量化 在深度学习模型从研发走向生产的过程中,模型量化(Model Quantization)是一个绕不开的关键环节。随着Transformer、LLM等大模型规模的不断增长,模型的存储体积、推理速度和能耗成为制约落地的核...

一文搞懂TensorFlow自定义训练循环的实现与优化-汤不热吧

一文搞懂TensorFlow自定义训练循环的实现与优化

andy阅读(47)

在TensorFlow 2.x中,Keras提供了高层的 1model.fit() 接口,大多数场景下使用起来非常方便。但当我们需要更精细地控制训练过程时——比如实现梯度裁剪、多优化器交替更新、对抗训练(GAN)或者自定义学习率调度——就需...