问题现象

集群OSD服务器异常宕机OSD状态变为down的状态.

原因分析

服务器本身硬件故障、负载过高、软件异常、机房突然断电等因素导致服务器异常关机对应的osd服务down.

处理过程

注意:针对服务器宕机后重启开机,OSD进程未能正常启动恢复,常用处理思路.

重启主机后OSD服务基本设定为开机自启模式,正常开机后发现OSD状态依旧为down的状态排查如下:

1.查看ceph日志,观察ceph down的时间与次数,从ceph-osd日志,确定对应时间 down 的原因.

2.初步判定OSD down有几种情况:

2.1 网络不通(验证网络无异常后,可以重启)

2.2 慢IO(可以重启,并观察磁盘 iostat ,确认是否会有慢 IO 出现)

2.3 磁盘坏道,日志出现 eio(这个时候就不要重启 OSD 了,应该对磁盘进行扫描检测确认坏道,或者 smartctl 确认异常后,进行磁盘更换,否则尝试重启并>观察)

2.4 代码 BUG(不要重启 osd,上报服务厂商分析)