[Linux-ha-jp] 【修正】ipfail でのフェイルオーバーが上手く動作しません(フェイルオーバーしません)

Zurück zum Archiv-Index

renay****@ybb***** renay****@ybb*****
2011年 9月 20日 (火) 11:49:38 JST


J.Sさん

こんにちは。山内です。

若干、設定は違いますが、手元のVM2台でHB2.1.4で同じような動作を確認しました。

結果として、ハートビートNICとPINGのNICを一緒にした場合に、ACT側で対象のNICが切れると、ACTのVIP(IPaddrのIP)はアップしたまま、STB側でもVIPが起動してスプリットブレイン状態になります。

今回、ご相談されたのはこのスプリットブレイン状態でしょうか?

これは、ハートビートで制御通信が出来ない為です。

ipfailでの監視は、サービスLANなどハートビート通信と関係のないラインの監視をご利用ください。

また、スプリットブレイン回避の為には、STONITHの導入(といってもV1モードのSTONITHがどこまで制御できるか私も知識が薄いです)、もしくは、Pacemakerを採用したモードを検討されるよう御願いいたします。

#かなり過去のV1モード(haresources利用)での構築経験がありますが、
#スプリットブレイン回避の為に、STBでリソース開始時に面倒なことをする必要があると思います。

ご相談の件、勘違いがありましたら、ご容赦ください。

以上、宜しくお願いいたします。


--- On Sun, 2011/9/18, salaz****@nifty***** <salaz****@nifty*****> wrote:

> 
> J.Sと申します。
> 
> 先ほど送付したメールしたのですが、
> 改行が上手く処理されませんでしたので再度メールします。
> 
> 
> 1対1の構成でIPアドレスのみをリソースとし、
> heartbeat v1 モードでクラスタ構成を組んでいます。
> 
> カーネルパニックや手動でのフェイルオーバーは上手くいくのですが、
> ipfail でのフェイルオーバーが上手くいきません。
> (フェイルオーバーしません)
> 
> ping ノードとの通信が deadping の時間途絶えたら、
> ipfail でフェイルオーバーするという認識です。
> 
> 検証環境の都合上、ハートビートのNICと、
> ping ノードとのNICは同一にしています。
> ping ノードは都合上、host1にXenでDom-Uを作成しています。
> 
> ハートビートのNICと ping ノードのNICを別にしないと、
> 上手く動作しないのでしょうか。
> 
> 
> ご教授のほど宜しくお願いします。
> 
> 
> ■環境
> CentOS 5.7
> heartbeat-3.0.5-1.1.el5
> host1(物理)192.168.11.2
> host2(物理)192.168.11.3
> host3(host1のDom-U)(pingノード)192.168.11.7
> VIP 192.168.11.4
> 
> 
> ■ha.cf(抜粋)
> keepalive 2
> deadtime 30
> warntime 10
> initdead 60
> auto_failback off
> bcast eth0
> node host1
> node host2
> 
> ping 192.168.11.7
> respawn hacluster /usr/lib/heartbeat/ipfail
> apiauth ipfail uid=hacluster gid=haclient
> deadping 10
> 
> 
> ■haresources
> host1 IPaddr::192.168.11.4/24
> 
> 
> ■ログ
> Sep 18 12:59:19 host1 heartbeat: [6348]: WARN: node 192.168.11.7: is dead
> Sep 18 12:59:19 host1 heartbeat: [6348]: info: Link 192.168.11.7:192.168.11.7 dead.
> Sep 18 12:59:19 host1 ipfail: [6375]: info: Status update: Node 192.168.11.7 now has status dead
> harc[6889]:     2011/09/18_12:59:19 info: Running /etc/ha.d//rc.d/status status
> Sep 18 12:59:20 host1 ipfail: [6375]: info: NS: We are dead. :<
> Sep 18 12:59:20 host1 ipfail: [6375]: info: Link Status update: Link 192.168.11.7/192.168.11.7 now has status dead
> Sep 18 12:59:21 host1 ipfail: [6375]: info: We are dead. :<
> Sep 18 12:59:21 host1 ipfail: [6375]: info: Asking other side for ping node count.
> Sep 18 12:59:25 host1 ipfail: [6375]: info: Ping node count is balanced.
> Sep 18 12:59:25 host1 ipfail: [6375]: info: No giveup timer to abort.
> 
> Sep 18 12:59:13 webcc heartbeat: [3017]: WARN: node 192.168.11.7: is dead
> Sep 18 12:59:13 webcc heartbeat: [3017]: info: Link 192.168.11.7:192.168.11.7 dead.
> Sep 18 12:59:13 webcc ipfail: [3028]: info: Status update: Node 192.168.11.7 now has status dead
> harc[4811]:     2011/09/18_12:59:13 info: Running /etc/ha.d//rc.d/status status
> Sep 18 12:59:14 webcc ipfail: [3028]: info: NS: We are dead. :<
> Sep 18 12:59:14 webcc ipfail: [3028]: info: Link Status update: Link 192.168.11.7/192.168.11.7 now has status dead
> Sep 18 12:59:16 webcc ipfail: [3028]: info: We are dead. :<
> Sep 18 12:59:16 webcc ipfail: [3028]: info: Asking other side for ping node count.
> Sep 18 12:59:18 webcc ipfail: [3028]: info: Ping node count is balanced.
> Sep 18 12:59:19 webcc ipfail: [3028]: info: No giveup timer to abort.
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 





Linux-ha-japan メーリングリストの案内
Zurück zum Archiv-Index