追加したOSDが起動して数分で落っこちる件
ちょっと空き容量が枯渇気味であったため、CephのOSDノードを追加したんですよ。すると、どうやらCeph-Deployはうまくいったのだが、増えたはずのOSDが数分後には減ってる。そんな追加ノードの状態をみたらこんなことに。
Apr 22 19:09:01 funf ceph-osd: 2020-04-22 19:09:01.630 7f16565a3b80 -1 osd.9 2915 log_to_monitors {default=true}
Apr 22 19:09:17 funf ceph-osd: 2020-04-22 19:09:17.404 7f5246700b80 -1 osd.8 2882 log_to_monitors {default=true}
Apr 22 19:11:42 funf ceph-osd: 2020-04-22 19:11:42.484 7f1643e7c700 -1 received signal: Interrupt from Kernel ( Could be generated by pthread_kill(), raise(), abort(), alarm() ) UID: 0
Apr 22 19:11:42 funf ceph-osd: 2020-04-22 19:11:42.484 7f1643e7c700 -1 osd.9 3028 *** Got signal Interrupt ***
Apr 22 19:11:42 funf ceph-osd: 2020-04-22 19:11:42.484 7f1643e7c700 -1 osd.9 3028 shutdown
Apr 22 19:11:55 funf ceph-osd: 2020-04-22 19:11:55.230 7f5233fd9700 -1 received signal: Interrupt from Kernel ( Could be generated by pthread_kill(), raise(), abort(), alarm() ) UID: 0
Apr 22 19:11:55 funf ceph-osd: 2020-04-22 19:11:55.230 7f5233fd9700 -1 osd.8 3031 *** Got signal Interrupt ***
Apr 22 19:11:55 funf ceph-osd: 2020-04-22 19:11:55.230 7f5233fd9700 -1 osd.8 3031 shutdown
調べてみると
以下のケースが該当していました。
原因としてはいわゆるイージーミスで、firewalldのルール変更をしていなかったために、モニタリング通信が遮断されていたと言うね・・・当方の環境ではクラスタ間通信のポートは独立したセグメントで組んでることもあり、今回はFirewalldの停止・無効化で事なきを得ました。
Comments are closed