怎样利用混沌工程来测试AI Infra的故障容错能力?
引言 在现代 AI 基础设施中,随着模型参数量的剧增和分布式部署的普及,底层硬件(如 GPU、RDMA 网络)的稳定性变得至关重要。然而,驱动崩溃、ECC 内存错误或网络抖动在生产环境中屡见不鲜。混沌工程(Chaos Engineering...
引言 在现代 AI 基础设施中,随着模型参数量的剧增和分布式部署的普及,底层硬件(如 GPU、RDMA 网络)的稳定性变得至关重要。然而,驱动崩溃、ECC 内存错误或网络抖动在生产环境中屡见不鲜。混沌工程(Chaos Engineering...
如何通过 A/B 测试评估移动端模型性能:除了延时外,你还需要关注哪些工程指标 在将深度学习模型(如基于 ncnn、mnn 或 TFLite 优化的模型)推向千万量级的移动端用户时,实验室内的 Benchmark 结果往往是“理想化”的。由...