[Linux-ha-jp] OS再起動後、pacemaker が起動しない

Zurück zum Archiv-Index

清水 純 jun.s****@centr*****
2017年 4月 25日 (火) 16:18:45 JST


linux-ha-japan の皆さま

お世話になっております。
清水と申します。

皆さまのお知恵を拝借したく。

約800日ぶりにOS再起動したところ、pacemaker が起動しなくなるという事象に遭遇
しています。

pacemaker + corosync + drbd で データベースを動かしています。

環境は以下。
OS:Oracle Linux 6.3
# rpm -qa | egrep "coro|pace"
corosynclib-1.4.1-7.el6.x86_64
pacemaker-cli-1.1.7-6.el6.x86_64
pacemaker-libs-1.1.7-6.el6.x86_64
pacemaker-cluster-libs-1.1.7-6.el6.x86_64
pacemaker-1.1.7-6.el6.x86_64
pacemaker-libs-devel-1.1.7-6.el6.x86_64
corosync-1.4.1-7.el6.x86_64
corosynclib-devel-1.4.1-7.el6.x86_64


稼働系から migrate コマンドでリソースを待機系にスイッチオーバーさせた後、
元稼働系のOSを再起動したのですが、その後、pacemaker が起動しなくなってしまいました。

corosync.log 抜粋
-- OS停止
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: Pacemaker Cluster Manager 1.1.6
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: corosync extended virtual synchrony service
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: corosync configuration service
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: corosync cluster closed process group service v1.01
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: corosync cluster config database access v1.01
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: corosync profile loading service
Apr 22 14:54:22 corosync [SERV  ] Service engine unloaded: corosync cluster quorum service v0.1
Apr 22 14:54:22 corosync [MAIN  ] Corosync Cluster Engine exiting with status 0****@main*****:1864.
-- OS起動後
Apr 22 15:38:01 corosync [MAIN  ] Corosync Cluster Engine ('1.4.1'): started and ready to provide service.
Apr 22 15:38:01 corosync [MAIN  ] Corosync built-in features: nss dbus rdma snmp
Apr 22 15:38:01 corosync [MAIN  ] Successfully read main configuration file '/etc/corosync/corosync.conf'.


上記メッセージ以外何も出力されず、corosync は起動しているように見えるのですが、
その後、pacemaker 関連のプロセスがまったく起動してきません。

corosync.conf の logging 設定で debug: on にして再起動してみたのですが、上記以外に
全くログが出てこないのでお手上げ状態です。

また、corosync を再起動しようとしても以下の状態で固まってしまい、OS再起動しか方法が
無い状態です。
# service corosync stop
Signaling Corosync Cluster Engine (corosync) to terminate: [  OK  ]
Waiting for corosync services to unload:...................................^C


待機系でデータベースが稼働しているのでサービスへの影響はないのですが、精神衛生上よろしくないので
早急に解決したいです。。。

確認すべきポイントがあれば教えてください。

よろしくお願いします。




Linux-ha-japan メーリングリストの案内
Zurück zum Archiv-Index