节点宕机
业务及数据库表现
业务表现:业务失败。
数据库表现:数据库服务器节点异常,出现节点宕机,OceanBase 数据库对应节点服务不可用。
排查方向和流程
排查是否宕机
检查主机可用性,如果可以登录对应节点,执行 ps 命令看下 observer 进程是否存在。
$ps -ef | grep observer
03:55:52 /home/xiaofeng.lby/obn.obs0/bin/observer
00:00:00 grep --color=auto observer
如果进程依然存在,可以进一步检查节点所在主机的网络连通性,排除因为节点间网络隔离或者网络抖动等原因导致的误报。
如果健康节点已经不满足多数派
如果评估主机或网络问题无法及时恢复:
-
优先考虑使用 OCP 通过 物理备租户(集群) Failover 的方式来进行恢复。
-
其次考虑使用 OCP 通过物理备份恢复的方式来进行恢复。
-
如果没有物理备库及数据备份,尝试轮流重启集群各个节点的 observer 进程。
-
如果轮流重启之后依然无法恢复,联系社区论坛值班同学进行排查。
-
联系社区论坛值班同学分析故障根因。
生产环境中的重要数据和关键租户,建议大家启用备份,以防各种不可预期的故障! 推荐大家在生产环境中使用 OCP 进行白屏化的物理备份恢复