怎样利用反事实分析来测试模型的决策是否具有歧视性?
在AI模型部署,尤其是涉及信贷、招聘或司法等高风险场景时,确保模型决策的公平性(Fairness)至关重要。传统的公平性指标(如群体平等机会或统计奇偶性)仅能发现群体偏差,但无法解释模型对特定个体的决策是否公平。 反事实分析(Counter...
在AI模型部署,尤其是涉及信贷、招聘或司法等高风险场景时,确保模型决策的公平性(Fairness)至关重要。传统的公平性指标(如群体平等机会或统计奇偶性)仅能发现群体偏差,但无法解释模型对特定个体的决策是否公平。 反事实分析(Counter...
向量搜索技术依赖高效的近似最近邻(ANN)算法来处理大规模数据集。其中,乘积量化(Product Quantization, PQ)因其卓越的压缩比和搜索速度而广受欢迎。然而,PQ是通过将高维向量拆分为多个子向量并独立量化来工作的,这一过程...
自动混合精度(Automatic Mixed Precision, AMP)训练是 PyTorch 1.6+ 版本引入的一项重要功能,它允许模型在训练过程中自动使用 FP16(半精度浮点数)进行计算,同时保留 FP32(单精度浮点数)来处理...
在深度学习模型的训练和推理过程中,尤其是在使用PyTorch时,我们经常会遇到一个棘手的问题:明明通过 nvidia-smi 看到显存(GPU Memory)还有剩余,但在尝试分配新的大张量时却报出了 OOM(Out of Memory)错...
许多AI开发者在使用PyTorch进行训练或推理时,经常会遇到一个困惑:当我使用del删除张量后,或者模型明明只占用了几个GB的显存,但通过nvidia-smi查看时,GPU的显存占用率仍然居高不下。本文将深入解析PyTorch的显存分配机...
引言:理解AI公平性的内在矛盾 在AI模型的部署阶段,公平性(Fairness)是一个核心的质量指标。然而,公平性并非一个单一的概念,它通常被划分为两大主要流派:群体公平性(Group Fairness)和个体公平性(Individual ...
如何利用 Doc Values 磁盘列式存储提升 Elasticsearch 聚合性能 在Elasticsearch中,数据检索主要依赖倒排索引(Inverted Index)。然而,倒排索引是为快速搜索文档而优化的(即“哪些文档包含这个词...
在 PyTorch 中,当内置操作无法满足性能或功能需求时,我们需要自定义高性能的 C++/CUDA 算子。要让 PyTorch 的自动求导机制(Autograd)识别并正确计算这些自定义算子的梯度,我们必须使用 torch.autogra...
在AI模型被广泛应用于信贷审批、招聘推荐和医疗诊断等高风险场景时,模型决策的“黑箱”特性以及潜在的公平性偏差(Bias)成为了部署中不可回避的挑战。为了提升用户信任和满足监管要求,我们必须将公平性监控结果以用户友好的方式呈现。 本文将聚焦于...
高维向量搜索是现代推荐系统、图像识别和自然语言处理的核心技术。当数据集达到百万甚至数十亿级别时,线性搜索(暴力搜索)变得不可接受。HNSW(Hierarchical Navigable Small World,层级可导航小世界)是目前最流行...