[Ceph][Storage][Error] Interrupt from kernel

追加したOSDが起動して数分で落っこちる件

ちょっと空き容量が枯渇気味であったため、CephのOSDノードを追加したんですよ。すると、どうやらCeph-Deployはうまくいったのだが、増えたはずのOSDが数分後には減ってる。そんな追加ノードの状態をみたらこんなことに。

Apr 22 19:09:01 funf ceph-osd: 2020-04-22 19:09:01.630 7f16565a3b80 -1 osd.9 2915 log_to_monitors {default=true}
Apr 22 19:09:17 funf ceph-osd: 2020-04-22 19:09:17.404 7f5246700b80 -1 osd.8 2882 log_to_monitors {default=true}
Apr 22 19:11:42 funf ceph-osd: 2020-04-22 19:11:42.484 7f1643e7c700 -1 received  signal: Interrupt from Kernel ( Could be generated by pthread_kill(), raise(), abort(), alarm() ) UID: 0
Apr 22 19:11:42 funf ceph-osd: 2020-04-22 19:11:42.484 7f1643e7c700 -1 osd.9 3028 *** Got signal Interrupt ***
Apr 22 19:11:42 funf ceph-osd: 2020-04-22 19:11:42.484 7f1643e7c700 -1 osd.9 3028 shutdown
Apr 22 19:11:55 funf ceph-osd: 2020-04-22 19:11:55.230 7f5233fd9700 -1 received  signal: Interrupt from Kernel ( Could be generated by pthread_kill(), raise(), abort(), alarm() ) UID: 0
Apr 22 19:11:55 funf ceph-osd: 2020-04-22 19:11:55.230 7f5233fd9700 -1 osd.8 3031 *** Got signal Interrupt ***
Apr 22 19:11:55 funf ceph-osd: 2020-04-22 19:11:55.230 7f5233fd9700 -1 osd.8 3031 shutdown

調べてみると

以下のケースが該当していました。

原因としてはいわゆるイージーミスで、firewalldのルール変更をしていなかったために、モニタリング通信が遮断されていたと言うね・・・当方の環境ではクラスタ間通信のポートは独立したセグメントで組んでることもあり、今回はFirewalldの停止・無効化で事なきを得ました。