问题
阿里云ack集群上的一个节点状态异常,无法正常调度
解决过程
-
重启kubelet、containerd,重启并未报错,但节点仍然处于异常状态。
-
重启ecs节点,无效
-
提交工单
经排查,是由于该节点上残留大量的pause容器,导致节点无法正常使用。
#执行如下命令清除pause容器 ctr -n k8s.io c del $(ctr -n k8s.io c ls | awk 'NR>2{print $1}')
执行完成后,节点恢复。
注意:如果是正常节点需要先将该节点上的pod排水,再执行该命令。