corosync.confにwatchdog_timeoutを設定する方法について (Linux-ha-jp) - Linux-HA Japan

お世話になります。今泉と申します。

掲題の件について、ご相談となります。
Linux-HA Japanで提供されている1.1.17-1.1リポジトリを使用して
冗長環境(Active-Standby)を構成した下記環境を利用しているのですが、
意図しないタイミングでStandby側のOS再起動が発生しました。
（事象発生時には、特に作業を行っていません。）

<環境>
RHEL7.4(vSphere6.5上のVM×2)
pacemaker-1.1.17-1
corosync-2.4.2-2.el7
PG-REX9.6でpostgres9.6をストリーミングレプリケーション

原因調査の切り分けを行ったところ、Standbyのcorosyncで/dev/watchdogアクセスが
実行されておらず、watchdogタイムアウトによるOS再起動が実行されたところまでは
確認できました。(Active側からみると、Standby機はOS再起動されるまでofflineに
なりませんでした。)

corosyncが原因か切り分けを進めるため、corosyncのwatchdogタイムアウト時間を
増減させたいと考えているのですが、corosync.confへの記載方法が見つけられないため
皆様のお知恵をお借りできませんでしょうか。
(1.1.16-1.1 以前は"ExecStartPre=/sbin/modprobe softdog soft_margin=XX"で
設定していた部分となります。)


補足となりますが、下記切り分けした事項となります。
・仮想基盤(vSphere)
イベントやログにはネットワーク切断・ストレージエラーなどのログなし

・OS（RHEL7.4）
syslog、pacemakerログに異常なメッセージ無し
kdumpや、coreの出力なし
sarログから、リソース(CPU,MEM,LoadAverage,Disk I/O)不足なし（10分間隔のため、正確ではありません）
事象発生の時間帯はcron等のジョブ実行なし

どうぞよろしくお願いいたします。
-------------- next part --------------
HTMLの添付ファイルを保管しました...
URL: <https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20190508/9a702847/attachment.html>

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools

[Linux-ha-jp] corosync.confにwatchdog_timeoutを設定する方法について

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] corosync.confにwatchdog_timeoutを設定する方法について

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools