标签：容错

怎样利用混沌工程来测试AI Infra的故障容错能力？

2026-04-05andy阅读(19)评论(0)

引言在现代 AI 基础设施中，随着模型参数量的剧增和分布式部署的普及，底层硬件（如 GPU、RDMA 网络）的稳定性变得至关重要。然而，驱动崩溃、ECC 内存错误或网络抖动在生产环境中屡见不鲜。混沌工程（Chaos Engineering...

2026-02-16andy阅读(93)评论(0)

在现代AI系统中，特征平台（Feature Platform, FP）是连接数据工程和模型服务的关键枢纽。它的任何中断，无论是数据丢失还是服务延迟，都会直接影响到实时预测的准确性和用户体验。因此，实现高可用性（HA）和容错机制（FT）是特征...

2026-02-05andy阅读(125)评论(0)

在大型分布式训练集群中，硬件故障是不可避免的。当一台机器的网卡（NIC）突然损坏时，这意味着该节点将无法参与通信，这对于依赖高效同步的分布式训练（如PyTorch DDP或TensorFlow MirroredStrategy）来说是致命的...