标签：深入

深入底层：如何通过计算与通信的 Overlap 掩盖 All-Reduce 产生的同步等待开销？

2026-02-14andy阅读(96)评论(0)

在同步分布式训练（如 PyTorch DDP）中，最主要的性能瓶颈之一是梯度同步操作 All-Reduce 导致的等待时间。当一台 GPU 完成反向传播并计算出所有梯度后，它必须等待所有其他 GPU 完成相同的操作，然后才能进行梯度聚合。利...

2026-02-09andy阅读(129)评论(0)

车载信息娱乐系统（IVI）作为汽车的智能中枢，其安全性至关重要。Android 平台使用 SELinux（Security-Enhanced Linux）来实现强制访问控制（MAC），它是保护 IVI 系统不受恶意或错误行为侵害的“安全带”...

2026-02-04andy阅读(139)评论(0)

在TensorFlow 2.x中，tf.function是实现高性能图执行的核心工具。它将普通的Python函数编译成高效、可移植的TensorFlow计算图。然而，要真正发挥其性能，我们必须理解其背后的机制：函数单态化（Monomorph...

2026-02-03andy阅读(151)评论(0)

Kubernetes (K8s) 的核心设计要求之一是“IP-per-Pod”模型，即每个 Pod 都有一个唯一的 IP 地址，并且所有 Pod 都可以无需 NAT 地互相通信，无论它们位于哪个节点上。在单节点内部，这相对容易实现（通常通过...