阿里云ACK集群节点异常

黄师傅 2,173 2023-04-12

问题

阿里云ack集群上的一个节点状态异常,无法正常调度

image-20230412163935515

解决过程

  1. 重启kubelet、containerd,重启并未报错,但节点仍然处于异常状态。

  2. 重启ecs节点,无效

  3. 提交工单

    经排查,是由于该节点上残留大量的pause容器,导致节点无法正常使用。

    image-20230412165800990

    #执行如下命令清除pause容器
    ctr -n k8s.io c del $(ctr -n k8s.io c ls | awk 'NR>2{print $1}')
    

    执行完成后,节点恢复。

    注意:如果是正常节点需要先将该节点上的pod排水,再执行该命令。