标签：模型

第12页

如何使用 torch.utils.checkpoint 梯度检查点技术以计算换空间训练超大模型

2026-01-30andy阅读(158)评论(0)

在训练深度学习模型，尤其是如Transformer这类拥有数百甚至数千层的超大模型时，GPU显存往往成为瓶颈。标准的反向传播算法需要存储前向传播中每层的所有中间激活值（Activations），以便在计算梯度时使用，这消耗了大量的显存。当模...

2026-01-29andy阅读(215)评论(0)

在现代人工智能，特别是大型语言模型（LLM）的训练中，GPU的核心计算能力（TFLOPS）固然重要，但常常被忽视的瓶颈是数据移动的速度。本文将详细解释GPU中使用的HBM（High Bandwidth Memory，高带宽显存）技术，以及为...

2026-01-29andy阅读(195)评论(0)

在AI模型部署，尤其是涉及信贷、招聘或司法等高风险场景时，确保模型决策的公平性（Fairness）至关重要。传统的公平性指标（如群体平等机会或统计奇偶性）仅能发现群体偏差，但无法解释模型对特定个体的决策是否公平。反事实分析（Counter...

2026-01-27andy阅读(138)评论(0)

在AI模型部署实践中，我们常常依赖总体准确率（Overall Accuracy）作为衡量模型性能的主要指标。然而，对于数据分布极度不均衡的场景，特别是针对少数或数据匮乏的群体（如特定的语言使用者、罕见疾病患者或特定的地理区域用户），高企的总...

2026-01-27andy阅读(248)评论(0)

在AI模型部署到实际环境之前，确保其公平性是AI基础设施工程师面临的关键挑战。模型常常会无意中吸收训练数据中固有的社会偏差（例如，基于性别或种族的偏见），导致对特定群体产生系统性的不利影响。对抗性去偏见（Adversarial Debias...

2026-01-26andy阅读(270)评论(0)

在构建和部署AI模型的过程中，评估模型的性能（如准确率、召回率）是标准流程。然而，模型在不同人群子集（如基于性别、种族、年龄）上的表现可能存在显著差异，这便是“公平性偏差”。Fairlearn是一个强大的开源工具包，专门用于评估和缓解机器学...

2026-01-25andy阅读(151)评论(0)

在AI基础设施（AI Infra）的实践中，部署来自第三方供应商的模型和服务是一项日益普遍但风险重重的任务。这些“黑箱”模型可能隐藏着供应链攻击、未授权的训练数据使用，或是不符合性能要求的问题。制定合规要求不仅仅是法律部门的职责，更是AI基...

2026-01-25andy阅读(171)评论(0)

在AI模型从研发到生产部署的过程中，伦理和合规不再是事后考虑项，而是必须嵌入到MLOps生命周期中的关键环节。一个高效的AI伦理委员会（AEC）是企业管理模型风险、维护品牌信任和遵守新兴法规（如欧盟的AI Act）的核心机制。 1. 明确委...

2026-01-23andy阅读(159)评论(0)

在AI模型部署进入生产环境时，模型的透明度、可解释性以及合规性变得越来越重要。Model Card（模型卡）作为一种标准化的文档，提供了关于模型性能、预期用途、限制、训练数据和伦理考量等关键信息，是实现负责任AI（Responsible A...

2026-01-21andy阅读(152)评论(0)

欧盟AI法案（EU AI Act）的通过，标志着AI模型部署正式进入强监管时代。对于AI基础设施和模型部署工程师而言，这不再仅仅是法律部门的问题，而是如何将合规性要求转化为可操作的MLOps流程的技术挑战。本文将聚焦于如何将模型的风险分类...