算力到底是怎么算的?带你从 TFLOPS 换算看透芯片规格书的猫腻
在评估GPU、AI加速卡或高性能计算芯片的性能时,TFLOPS(Tera-Floating Point Operations Per Second,每秒万亿次浮点运算)是一个核心指标。然而,规格书上的TFLOPS数字往往是理论峰值性能,它极...
在评估GPU、AI加速卡或高性能计算芯片的性能时,TFLOPS(Tera-Floating Point Operations Per Second,每秒万亿次浮点运算)是一个核心指标。然而,规格书上的TFLOPS数字往往是理论峰值性能,它极...
作为一名搜索技术专家,理解Elasticsearch(简称ES)的近实时(NRT)搜索机制是掌握其高性能搜索能力的关键。NRT的实现核心在于Refresh操作。许多人误以为Refresh就是传统数据库中的“刷盘”或“提交”,但它在ES/Lu...
在深度学习模型训练和推理过程中,尤其是在使用GPU加速时,张量(Tensor)的内存管理是影响性能的关键因素。PyTorch张量的操作大致分为两类:返回“视图”(View)和返回“副本”(Copy/Clone)。不理解这两者的区别,可能导致...
在AI模型部署,尤其是涉及信贷、招聘或司法等高风险场景时,确保模型决策的公平性(Fairness)至关重要。传统的公平性指标(如群体平等机会或统计奇偶性)仅能发现群体偏差,但无法解释模型对特定个体的决策是否公平。 反事实分析(Counter...
向量搜索技术依赖高效的近似最近邻(ANN)算法来处理大规模数据集。其中,乘积量化(Product Quantization, PQ)因其卓越的压缩比和搜索速度而广受欢迎。然而,PQ是通过将高维向量拆分为多个子向量并独立量化来工作的,这一过程...
自动混合精度(Automatic Mixed Precision, AMP)训练是 PyTorch 1.6+ 版本引入的一项重要功能,它允许模型在训练过程中自动使用 FP16(半精度浮点数)进行计算,同时保留 FP32(单精度浮点数)来处理...
在深度学习模型的训练和推理过程中,尤其是在使用PyTorch时,我们经常会遇到一个棘手的问题:明明通过 nvidia-smi 看到显存(GPU Memory)还有剩余,但在尝试分配新的大张量时却报出了 OOM(Out of Memory)错...
许多AI开发者在使用PyTorch进行训练或推理时,经常会遇到一个困惑:当我使用del删除张量后,或者模型明明只占用了几个GB的显存,但通过nvidia-smi查看时,GPU的显存占用率仍然居高不下。本文将深入解析PyTorch的显存分配机...
引言:理解AI公平性的内在矛盾 在AI模型的部署阶段,公平性(Fairness)是一个核心的质量指标。然而,公平性并非一个单一的概念,它通常被划分为两大主要流派:群体公平性(Group Fairness)和个体公平性(Individual ...
如何利用 Doc Values 磁盘列式存储提升 Elasticsearch 聚合性能 在Elasticsearch中,数据检索主要依赖倒排索引(Inverted Index)。然而,倒排索引是为快速搜索文档而优化的(即“哪些文档包含这个词...