大渕昭夫
ohbuc****@m2j*****
2015年 8月 25日 (火) 18:50:38 JST
各位 お世話になっております。 大渕と申します。 2年ほど前に「PostgreSQL9.1ストリーミングレプリケーション対応リソースエー ジェント」を参考に構築し、サーバーの設置場所の移動 の際など何度かこちら のメーリングリストにお世話になりまして、おかげさまで無事に稼働していたの ですが、昨夜アクセスが集中する事態が発生した ところ、フェイルオーバーし たようです。 フェイルオーバーした原因を教えていただきたく、メールさせていただきました。 ha-logを添付いたしますので、お力を貸していただけると大変ありがたいです。 環境は以下の通りです。 CentOS5 PostgreSQL9.2.4 Pacemaker1.0.13-1.1 Master/Slave構成 以上 また、ha-logの7028行目あたりに以下のような表示がありましたので、この時間 にerrorが発生したことが原因でフェイルオーバーする 流れになったように思わ れます。 Aug 24 22:15:37 ptdb01.localdomain lrmd: [7455]: info: RA output: (pgsql:0:monitor:stderr) psql: FATAL: sorry, too many clients already pgsql(pgsql:0)[21016]: 2015/08/24_22:15:37 ERROR: PostgreSQL template1 isn't running pgsql(pgsql:0)[21016]: 2015/08/24_22:15:37 ERROR: Connection error (connection to the server went bad and the session was not interactive) occurred while executing the psql command. Aug 24 22:15:37 ptdb01.localdomain crmd: [7458]: info: process_lrm_event: LRM operation pgsql:0_monitor_2000 (call=16, rc=1, cib-update=50710, confirmed=false) unknown error 以上 Master側のサーバー自体はダウンしておりません。/var/log/messagesの該当時 刻には特にログはなかったので問題なく動いて いるように思われます。 アクセスが長時間集中したのでMaster側のPostgreSQLの設定にあった max_connections=100の状態が続いてしま い、Slave側の通信に応答しなかった ためフェイルオーバーしてしまったのではないかと予想してみたのですが、そう いったことは考えられますで しょうか。 以上、お忙しいところ恐縮ですが、よろしくお願いいたします。 -------------- next part -------------- $B%F%-%9%H7A<00J30$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B... $B%U%!%$%kL>(B: ha-debug.zip $B7?(B: application/x-zip-compressed $B%5%$%:(B: 123216 $B%P%$%H(B $B @ bL@(B: $BL5$7(B Download