标签：ai

第4页

怎样建立AI安全基线，并在每次部署前强制执行？

2026-02-13andy阅读(77)评论(0)

AI模型部署流程（MLOps）正在快速整合DevSecOps原则。在每次将模型服务推送到生产环境之前，强制执行严格的安全基线是防止供应链攻击、恶意依赖注入和配置错误的关键步骤。本文将聚焦于如何通过集成容器扫描工具，在CI/CD流水线中建立并...

2026-02-13andy阅读(60)评论(0)

在传统的操作系统（OS）中，计算的最小单位是进程（Process）或线程（Thread）。应用程序通过调用系统API，由进程负责资源的分配（CPU时间片、内存空间、I/O访问）。这种模型在处理通用计算任务时非常高效，但面对现代AI和大数据的...

2026-02-13andy阅读(81)评论(0)

概述：AI公平性透明度的技术挑战近年来，针对AI系统决策的公平性和透明度要求日益严格。以美国加州为例，未来可能出台的法规将要求AI系统明确披露其在不同受保护群体（如种族、性别、年龄等）上产生的偏差影响。对于AI基础设施和模型部署团队而言，...

2026-02-12andy阅读(93)评论(0)

在当前的大模型（LLM）时代，NVIDIA H100 Tensor Core GPU 是训练和推理的主力核心。但一块 H100 GPU 本身并不能单独完成大规模训练任务。AI 服务器的设计精髓在于如何高效地将多块 H100 连接起来，形成一...

2026-02-12andy阅读(118)评论(0)

大规模语言模型（LLM）在生产环境中的部署面临两大核心挑战：极低的延迟和极高的吞吐量。NVIDIA TensorRT-LLM（TRT-LLM）通过优化LLM结构和GPU调度，极大地提升了推理性能。然而，要将其转化为高可用、可水平扩展的企业级...

2026-02-11andy阅读(88)评论(0)

简介：软件定义AI算力与显存池化在现代AI训练和推理集群中，GPU显存（VRAM）是核心且昂贵的资源。传统的资源分配方式是静态的，即一个任务独占一台服务器上的一个或多个GPU及其全部显存。这种模式常导致两个主要问题：资源碎片化和低利用率。...

2026-02-11andy阅读(103)评论(0)

AI 集群的功耗挑战与 DVFS 简介随着AI模型规模的爆炸式增长，支持这些模型的计算集群（无论是使用高性能CPU还是GPU）消耗的能源也水涨船高。高功耗不仅意味着高昂的电费，还会带来巨大的散热压力和潜在的硬件故障风险。在许多情况下，集群...

2026-02-11andy阅读(99)评论(0)

金融行业的AI模型，尤其是用于信贷风险评估、市场风险量化和欺诈检测的模型，必须满足严苛的监管要求，例如巴塞尔协议（Basel Accords）关于模型风险管理的要求，以及美联储的SR 11-7指引。这些规定核心要求是模型的可追溯性、可解释性...

2026-02-10andy阅读(72)评论(0)

存算一体架构（CIM）：AI算力下一阶段的性能飞跃还是工程挑战？随着AI模型（尤其是大语言模型和Transformer架构）的规模爆炸式增长，对算力的需求也急剧上升。然而，传统的冯·诺依曼（Von Neumann）架构正在成为限制AI加速...

2026-02-10andy阅读(81)评论(0)

引言：ISO 26262对AI部署的挑战自动驾驶系统的核心软件——感知、决策、控制模型——通常要求达到最高的汽车安全完整性等级（ASIL D）。ISO 26262标准要求硬件和软件的开发生命周期必须具备严格的可追溯性（Traceabili...