rancher rke搭建的集群将某个负载设置specific node的调度策略,发现大量的Evicted状态的pod的原因
在使用Rancher RKE部署的Kubernetes集群中,AI/ML负载(如训练任务、推理服务)经常需要精确调度到特定的GPU节点上。我们通常使用nodeSelector或nodeAffinity来实现这一目标。然而,当这些负载被集中调...
在使用Rancher RKE部署的Kubernetes集群中,AI/ML负载(如训练任务、推理服务)经常需要精确调度到特定的GPU节点上。我们通常使用nodeSelector或nodeAffinity来实现这一目标。然而,当这些负载被集中调...