人工智能和大数据

PyTorch FSDP（Fully Sharded Data Parallel）源码级深度解析：从 ZeRO-3 实现原理到生产环境调优实战

2026-07-22andy阅读(4)

一、引言：当模型参数放不进单卡显存时随着大语言模型规模的不断膨胀，从 BERT-base 的 1.1 亿参数到 Llama 3 的 4050 亿参数，单张 GPU 的显存早已无法承载完整的模型训练。即便是拥有 80GB HBM3 显存的 ...

2026-07-22andy阅读(4)

一、引言：从 RLHF 到 DPO 的范式转变大语言模型（LLM）在预训练阶段通过海量文本学习到了丰富的语言知识和世界知识，但预训练模型的行为并不一定符合人类期望——它可能输出有害内容、编造事实，或者无法遵循指令。为了让模型”...

2026-07-22andy阅读(7)

从传统RAG到Agentic RAG：智能代理检索增强生成系统架构设计与生产部署实战 2024年以来，检索增强生成（Retrieval-Augmented Generation, RAG）技术经历了从朴素架构到智能代理化的重要演进。传统的&...

2026-07-20andy阅读(17)

引言：为什么需要自适应查询执行？在 Apache Spark 的早期版本中，SQL 查询的性能高度依赖于开发人员对数据的了解程度和手动调优经验。一个常见的场景是：开发者在开发环境设定了一个合理的 shuffle 分区数（如 200），但到...

2026-07-20andy阅读(24)

引言：为什么机器学习模型需要正则化？在机器学习实践中，我们经常会遇到这样的困境：模型在训练集上表现完美，准确率接近100%，但一旦面对全新的测试数据，性能就急剧下降。这种现象被称为过拟合（Overfitting），是机器学习中最常见也最棘...

2026-07-19andy阅读(303)评论(0)

在资源受限的端侧设备（如手机、IoT设备）上部署深度学习模型时，模型量化（通常是转换为INT8）是降低延迟和功耗的关键技术。然而，量化方案并非只有一种。本文将对比静态离线量化（Static Post-Training Quantizatio...

2026-07-19andy阅读(134)

引言：大模型推理为何成为部署瓶颈 2024年以来，大语言模型（LLM）的能力持续攀升，从GPT-4、Claude 3到Llama 3、Qwen2，模型参数量动辄数百亿，推理成本居高不下。当企业从”调API体验”转向&...

2026-07-19andy阅读(1127)评论(0)

如何在海光 DCU DTK 环境下平滑迁移 ROCm 项目：解决版本冲突的实战指南海光 DCU（Deep Computing Unit）作为国产 AI 算力的佼佼者，其底层软件栈 DTK（Deep-learning ToolKit）高度兼...

2026-07-19andy阅读(322)评论(0)

如何针对大模型特定层进行混合精度量化：基于敏感度分析的自动策略分配在部署大语言模型（LLM）时，全量化（如统一 INT4）虽然能极大降低显存占用，但往往会导致模型在复杂逻辑推理上出现“降智”。由于模型不同层对精度的敏感度不同，混合精度量化...

2026-07-19andy阅读(325)评论(0)

在使用 TensorFlow (TF) 进行深度学习开发时，尤其是涉及到 GPU 资源管理时，许多开发者会遇到一个令人头疼的问题：TensorFlow 默认会在初始化时，预先分配几乎所有可用的 GPU 显存，即使模型非常小。这导致了显存资源...