お世話になります。今泉と申します。 掲題の件について、ご相談となります。 Linux-HA Japanで提供されている1.1.17-1.1リポジトリを使用して 冗長環境(Active-Standby)を構成した下記環境を利用しているのですが、 意図しないタイミングでStandby側のOS再起動が発生しました。 (事象発生時には、特に作業を行っていません。) <環境> RHEL7.4(vSphere6.5上のVM×2) pacemaker-1.1.17-1 corosync-2.4.2-2.el7 PG-REX9.6でpostgres9.6をストリーミングレプリケーション 原因調査の切り分けを行ったところ、Standbyのcorosyncで/dev/watchdogアクセスが 実行されておらず、watchdogタイムアウトによるOS再起動が実行されたところまでは 確認できました。(Active側からみると、Standby機はOS再起動されるまでofflineに なりませんでした。) corosyncが原因か切り分けを進めるため、corosyncのwatchdogタイムアウト時間を 増減させたいと考えているのですが、corosync.confへの記載方法が見つけられないため 皆様のお知恵をお借りできませんでしょうか。 (1.1.16-1.1 以前は"ExecStartPre=/sbin/modprobe softdog soft_margin=XX"で 設定していた部分となります。) 補足となりますが、下記切り分けした事項となります。 ・仮想基盤(vSphere) イベントやログにはネットワーク切断・ストレージエラーなどのログなし ・OS(RHEL7.4) syslog、pacemakerログに異常なメッセージ無し kdumpや、coreの出力なし sarログから、リソース(CPU,MEM,LoadAverage,Disk I/O)不足なし(10分間隔のため、正確ではありません) 事象発生の時間帯はcron等のジョブ実行なし どうぞよろしくお願いいたします。 -------------- next part -------------- HTMLの添付ファイルを保管しました... URL: <https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20190508/9a702847/attachment.html>