人工智能和大数据

第41页

详解 GPU 的 HBM 显存：为什么带宽大小直接决定了大模型的训练生死

2026-01-29andy阅读(167)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...

2026-01-29andy阅读(160)评论(0)

在评估GPU、AI加速卡或高性能计算芯片的性能时，TFLOPS（Tera-Floating Point Operations Per Second，每秒万亿次浮点运算）是一个核心指标。然而，规格书上的TFLOPS数字往往是理论峰值性能，它极...

2026-01-29andy阅读(161)评论(0)

作为一名搜索技术专家，理解Elasticsearch（简称ES）的近实时（NRT）搜索机制是掌握其高性能搜索能力的关键。NRT的实现核心在于Refresh操作。许多人误以为Refresh就是传统数据库中的“刷盘”或“提交”，但它在ES/Lu...

2026-01-29andy阅读(150)评论(0)

在深度学习模型训练和推理过程中，尤其是在使用GPU加速时，张量（Tensor）的内存管理是影响性能的关键因素。PyTorch张量的操作大致分为两类：返回“视图”（View）和返回“副本”（Copy/Clone）。不理解这两者的区别，可能导致...

2026-01-29andy阅读(149)评论(0)

在AI模型部署，尤其是涉及信贷、招聘或司法等高风险场景时，确保模型决策的公平性（Fairness）至关重要。传统的公平性指标（如群体平等机会或统计奇偶性）仅能发现群体偏差，但无法解释模型对特定个体的决策是否公平。反事实分析（Counter...

2026-01-29andy阅读(178)评论(0)

向量搜索技术依赖高效的近似最近邻（ANN）算法来处理大规模数据集。其中，乘积量化（Product Quantization, PQ）因其卓越的压缩比和搜索速度而广受欢迎。然而，PQ是通过将高维向量拆分为多个子向量并独立量化来工作的，这一过程...

2026-01-29andy阅读(111)评论(0)

自动混合精度（Automatic Mixed Precision, AMP）训练是 PyTorch 1.6+ 版本引入的一项重要功能，它允许模型在训练过程中自动使用 FP16（半精度浮点数）进行计算，同时保留 FP32（单精度浮点数）来处理...

2026-01-29andy阅读(187)评论(0)

在深度学习模型的训练和推理过程中，尤其是在使用PyTorch时，我们经常会遇到一个棘手的问题：明明通过 nvidia-smi 看到显存（GPU Memory）还有剩余，但在尝试分配新的大张量时却报出了 OOM（Out of Memory）错...

2026-01-29andy阅读(112)评论(0)

许多AI开发者在使用PyTorch进行训练或推理时，经常会遇到一个困惑：当我使用del删除张量后，或者模型明明只占用了几个GB的显存，但通过nvidia-smi查看时，GPU的显存占用率仍然居高不下。本文将深入解析PyTorch的显存分配机...

2026-01-29andy阅读(112)评论(0)

引言：理解AI公平性的内在矛盾在AI模型的部署阶段，公平性（Fairness）是一个核心的质量指标。然而，公平性并非一个单一的概念，它通常被划分为两大主要流派：群体公平性（Group Fairness）和个体公平性（Individual ...