リソースグループのフェールオーバ動作について (Linux-ha-jp) - Linux-HA Japan

宮本さん

おはようございます。山内です。

> 事象1については、フェールオーバ処理とQuorum状況更新処理(と表現しておきます)の
> タイミングによる想定事象であると解釈しました。
> 改善を期待されるような事象とも考えられますが、corosync.1.2.5以降で改善が
> 行われている版がありますでしょうか。

特に改善されているようなバージョンは、ないと私は記憶しています。

corosync(もしくはHeartbeat)の停止後の構成変更の通知(ノード構成の変更）と、
Pacemakerのその構成変更通知にの処理（Quorum処理）の問題なので、どちらかというと、Pacemaker側で何かの制御をしないと改善出来ないような気がします。

Pacemaker1.1系統で、試してみるともしかするとちがった動作になるやも知れません。

#そもそも、最終ノードが残った場合以外では、freeze設定では、Quorumを持っているノードからのSTONITHが期待されるので、あまりPacemakerとしては、最終ノードが残るケースの状態は気にしていないのかも知れません。

以上、宜しく御願いいたします。


--- On Sat, 2011/7/9, N.Miyamoto <fj508****@aa*****> wrote:

> 
> 岩崎さん、おかわださん、山内さん
> 
> 宮本です。
> 回答ありがとうございます。
> 
> >  location cli-prefer-rscgroup rscgroup \
> >      rule $id="cli-prefer-rule-rscgroup" inf: #uname eq gw_06
> 
> これは、動作確認中にcrm resource moveを実施していることが原因であることが
> わかりました。
> 事象2については、no-quorum-policyの設定に従った正しい動作であることは
> わかりました。
> 
> > 　では、今回なぜmountrscだけが、gw_05で起動した状態になったかですが、quorumの更新が
> > 　やや遅れているように思います(ログの状態遷移を見てもlsbrscとviprscの起動処理を途中でcancelしているようですし)。
> > 　つまりmountrscの起動処理がかかった時点では、quorumを有していると判断して動作したものの、
> > 　その後にquorumの情報が更新され、quorumを失ったと判断し、後続の処理をやめたものと推測します。
> 
> > 状態aとなったのは、Pacemaker的には正しい動作です。
> > 最終ノード(freeze設定時にQuorumを消失した最終ノード)のリソースの起動状態は
> > Quorumを消失するタイミングで不定です。
> 
> 事象1については、フェールオーバ処理とQuorum状況更新処理(と表現しておきます)の
> タイミングによる想定事象であると解釈しました。
> 改善を期待されるような事象とも考えられますが、corosync.1.2.5以降で改善が
> 行われている版がありますでしょうか。
> 
> 以上ですが、宜しくお願いします。
> 
> On Fri, 8 Jul 2011 10:17:44 +0900 (JST)
> renay****@ybb***** wrote:
> 
> > 宮本さん
> > 
> > お疲れ様です。メイトリックスの山内です。
> > 
> > 岩崎さん、おかわださんも回答していますが、１点だけ回答しておきます。
> > 
> > > 質問1
> > >   前述の手順を実施した場合の正しい仕様を教えて下さい。
> > 
> > 状態aとなったのは、Pacemaker的には正しい動作です。
> > 最終ノード(freeze設定時にQuorumを消失した最終ノード)のリソースの起動状態は
> > Quorumを消失するタイミングで不定です。
> > (Pacemakerでは、Qurom=freezeでは、Quorumが消失する時点まではリソースの配置の制御は実施されるというのが正しい認識です）
> > 
> > 最終ノードにリソースを完全に移動した後で、Quorumの消失が発生すればよいのですが、実際には、途中でQuorumの消失がほとんど発生するので、リソースの移動は完全には行われない場合が多いです。
> > 
> > 余談ですが、
> > corosync.1.2.5あたりでは、まだまだ、インターコネクトのrrp_modeの制御あたりがよくありません。
> > 
> > rrp_mode: active
> > 
> > ではなく、noneなどの方がよいかと思います。
> > もし、インターコネクトが２本必要であれば、そちらをbondingして、none指定がよいかと思います。
> > 
> > 以上、宜しくお願いいたします。
> > 
> > 
> > 
> > --- On Thu, 2011/7/7, N.Miyamoto <fj508****@aa*****> wrote:
> > 
> > > 
> > > いつもお世話になっております。
> > > 宮本です。
> > > 
> > > リソースグループのフェールオーバ動作を確認しています。
> > > 
> > > [環境概要]
> > > OS：CentOS 5.4 x86_64 2.6.18-194.el5xen
> > > ソフト：pacemaker-1.0.10-1.4.el5 + corosync-1.2.5-1.3.el5
> > > 構成：3ノード
> > > ※設定の詳細は、添付ファイルを参照願います。
> > > ※添付ファイルは、corosync.conf、crm configure showと下記(1)の事象のログです。
> > > 
> > > [事象1]
> > > 3ノード(gw_04,gw_05,gw_06)構成で、リソースグループが存在するノードで
> > > /etc/init.d/corosync stopを順に実施したところ、リソースグループが
> > > 以下の状態a.になりました。状態b.を期待していました。
> > > 
> > > 状態a.
> > > ============
> > > Last updated: Thu Jul? 7 09:10:59 2011
> > > Stack: openais
> > > Current DC: gw_05 - partition WITHOUT quorum
> > > Version: 1.0.10-da7075976b5ff0bee71074385f8fd02f296ec8a3
> > > 3 Nodes configured, 3 expected votes
> > > 1 Resources configured.
> > > ============
> > > 
> > > Online: [ gw_05 ]
> > > OFFLINE: [ gw_04 gw_06 ]
> > > 
> > >  Resource Group: rscgroup
> > > ? ???mountrsc???(ocf::heartbeat:Filesystem):? ? Started gw_05
> > > ? ???lsbrsc? ???(lsb:lsbrsc):???Stopped
> > > ? ???viprsc? ???(ocf::heartbeat:IPaddr2):? ? ???Stopped
> > > 
> > > 状態b.
> > > ============
> > > Last updated: Thu Jul? 7 09:08:08 2011
> > > Stack: openais
> > > Current DC: gw_05 - partition WITHOUT quorum
> > > Version: 1.0.10-da7075976b5ff0bee71074385f8fd02f296ec8a3
> > > 3 Nodes configured, 3 expected votes
> > > 1 Resources configured.
> > > ============
> > > 
> > > Online: [ gw_05 ]
> > > OFFLINE: [ gw_06 gw_04 ]
> > > 
> > >  Resource Group: rscgroup
> > > ? ???mountrsc???(ocf::heartbeat:Filesystem):? ? Started gw_05
> > > ? ???lsbrsc? ???(lsb:lsbrsc):???Started gw_05
> > > ? ???viprsc? ???(ocf::heartbeat:IPaddr2):? ? ???Started gw_05
> > > 
> > > 質問1
> > > ? 前述の手順を実施した場合の正しい仕様を教えて下さい。
> > > 
> > > 質問2
> > > ? 環境設定の不備の場合は、環境設定方法を教えて下さい。
> > > 
> > > 質問3
> > > ? 既知障害の場合は、回避方法を教えて下さい。
> > > 
> > > [事象2]
> > > 添付の設定で、全ノードのPacemakerを停止した状態で、1ノートのみ
> > > Pacemakerを起動すると、ノードは、Onlineとなりますが、リソース
> > > グループが開始されません。これは、quorumが獲得できないためだと
> > > 推測しています。
> > > 
> > > 質問4
> > > ? [事象2]の手順で、リソースグループを起動する設定があれば教えて下さい。
> > > 
> > > 以上ですが、宜しくお願いします。
> > > 
> > > ----------------------------------------------
> > > Nobuaki Miyamoto
> > > mail:fj508****@aa*****
> > > 
> > 
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux****@lists*****
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> 
> ----------------------------------------------
> Nobuaki Miyamoto
> mail:fj508****@aa*****
> 
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools

[Linux-ha-jp] リソースグループのフェールオーバ動作について

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] リソースグループのフェールオーバ動作について

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools