[Linux-ha-jp] corosync.confにwatchdog_timeoutを設定する方法について

Zurück zum Archiv-Index
Imaizumi Satoshi sa.im****@gmail*****
2019年 5月 8日 (水) 19:17:26 JST


お世話になります。今泉と申します。

掲題の件について、ご相談となります。
Linux-HA Japanで提供されている1.1.17-1.1リポジトリを使用して
冗長環境(Active-Standby)を構成した下記環境を利用しているのですが、
意図しないタイミングでStandby側のOS再起動が発生しました。
(事象発生時には、特に作業を行っていません。)

<環境>
RHEL7.4(vSphere6.5上のVM×2)
pacemaker-1.1.17-1
corosync-2.4.2-2.el7
PG-REX9.6でpostgres9.6をストリーミングレプリケーション

原因調査の切り分けを行ったところ、Standbyのcorosyncで/dev/watchdogアクセスが
実行されておらず、watchdogタイムアウトによるOS再起動が実行されたところまでは
確認できました。(Active側からみると、Standby機はOS再起動されるまでofflineに
なりませんでした。)

corosyncが原因か切り分けを進めるため、corosyncのwatchdogタイムアウト時間を
増減させたいと考えているのですが、corosync.confへの記載方法が見つけられないため
皆様のお知恵をお借りできませんでしょうか。
(1.1.16-1.1 以前は"ExecStartPre=/sbin/modprobe softdog soft_margin=XX"で
設定していた部分となります。)


補足となりますが、下記切り分けした事項となります。
・仮想基盤(vSphere)
イベントやログにはネットワーク切断・ストレージエラーなどのログなし

・OS(RHEL7.4)
syslog、pacemakerログに異常なメッセージ無し
kdumpや、coreの出力なし
sarログから、リソース(CPU,MEM,LoadAverage,Disk I/O)不足なし(10分間隔のため、正確ではありません)
事象発生の時間帯はcron等のジョブ実行なし

どうぞよろしくお願いいたします。
-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20190508/9a702847/attachment.html>


Linux-ha-japan メーリングリストの案内
Zurück zum Archiv-Index