Masamichi Fukuda - elf-systems
masamichi_fukud****@elf-s*****
2015年 3月 2日 (月) 12:10:34 JST
山内さん こんにちは、福田です。 前回と同じようにインターコネクトlanのインタフェースをdownさせてみましたが、 やはり次のstonithモジュール(xen0)が実行されないようです。 サービスlanのインタフェースをdownさせると、ノード2にフィエルオーバします。 crmの設定ファイルは次のようにしています。 ### Cluster Option ### property \ no-quorum-policy="ignore" \ stonith-enabled="true" \ startup-fencing="false" \ stonith-timeout="710s" \ crmd-transition-delay="2s" ### Resource Default ### rsc_defaults \ resource-stickiness="INFINITY" \ migration-threshold="1" ### Group Configuration ### group HAvarnish \ vip_208 \ varnishd group grpStonith1 \ Stonith1-1 \ Stonith1-2 \ Stonith1-3 group grpStonith2 \ Stonith2-1 \ Stonith2-2 \ Stonith2-3 ### Clone Configuration ### clone clone_ping \ ping ### Primitive Configuration ### primitive vip_208 ocf:heartbeat:IPaddr2 \ params \ ip="192.168.17.208" \ nic="eth0" \ cidr_netmask="24" \ op start interval="0s" timeout="90s" on-fail="restart" \ op monitor interval="5s" timeout="60s" on-fail="restart" \ op stop interval="0s" timeout="100s" on-fail="fence" primitive varnishd lsb:varnish \ op start interval="0s" timeout="90s" on-fail="restart" \ op monitor interval="10s" timeout="60s" on-fail="restart" \ op stop interval="0s" timeout="100s" on-fail="fence" primitive ping ocf:pacemaker:ping \ params \ name="default_ping_set" \ host_list="192.168.17.254" \ multiplier="100" \ dampen="1" \ op start interval="0s" timeout="90s" on-fail="restart" \ op monitor interval="10s" timeout="60s" on-fail="restart" \ op stop interval="0s" timeout="100s" on-fail="fence" primitive Stonith1-1 stonith:external/stonith-helper \ params \ priority="1" \ stonith-timeout="40" \ hostlist="lbv1.beta.com" \ dead_check_target="192.168.17.132 10.0.17.132" \ standby_wait_time="10" \ standby_check_command="/usr/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \ op start interval="0s" timeout="60s" on-fail="restart" \ stonith-timeout="300" \ hostlist="lbv1.beta.com:/etc/xen/lbv1.cfg" \ dom0="dom0.xxxx.com" \ op start interval="0s" timeout="60s" on-fail="restart" \ op monitor interval="3600s" timeout="60s" on-fail="restart" \ op stop interval="0s" timeout="60s" on-fail="ignore" primitive Stonith1-3 stonith:meatware \ params \ priority="3" \ stonith-timeout="600" \ hostlist="lbv1.beta.com" \ op start interval="0s" timeout="60s" \ op monitor interval="3600s" timeout="60s" \ op stop interval="0s" timeout="60s" primitive Stonith2-1 stonith:external/stonith-helper \ params \ priority="1" \ stonith-timeout="40" \ hostlist="lbv2.beta.com" \ dead_check_target="192.168.17.133 10.0.17.133" \ standby_wait_time="10" \ standby_check_command="/usr/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \ op start interval="0s" timeout="60s" on-fail="restart" \ op monitor interval="3600s" timeout="60s" on-fail="restart" \ op stop interval="0s" timeout="60s" on-fail="ignore" primitive Stonith2-2 stonith:external/xen0 \ params \ priority="2" \ stonith-timeout="300" \ hostlist="lbv2.beta.com:/etc/xen/lbv2.cfg" \ dom0="dom0.xxxx.com" \ op start interval="0s" timeout="60s" on-fail="restart" \ op monitor interval="3600s" timeout="60s" on-fail="restart" \ op stop interval="0s" timeout="60s" on-fail="ignore" primitive Stonith2-3 stonith:meatware \ params \ priority="3" \ stonith-timeout="600" \ hostlist="lbv2.beta.com" \ op start interval="0s" timeout="60s" \ op monitor interval="3600s" timeout="60s" \ op stop interval="0s" timeout="60s" ### Resource Location ### location HA_location-1 HAvarnish \ rule 200: #uname eq lbv1.beta.com \ rule 100: #uname eq lbv2.beta.com location HA_location-2 HAvarnish \ rule -INFINITY: not_defined default_ping_set or default_ping_set lt 100 location HA_location-3 grpStonith1 \ rule -INFINITY: #uname eq lbv1.beta.com location HA_location-4 grpStonith2 \ rule -INFINITY: #uname eq lbv2.beta.com DomU(lbv1とlbv2)からDom0へはrootでssh、パスワードなしでログインできるようにはなっています。 xen0のパラメータで不足分ありますでしょうか。 宜しくお願いします。 以上 2015年3月1日 16:54 <renay****@ybb*****>: > 福田さん > > こんにちは、山内です。 > > 流れ的には正常です。 > ただ、helperの次のstonithモジュール(xen0)が実行されていないようなので、こちらは問題です。 > > ただ、先にも書きましたが、pacemakerのバージョンでfencing_topologyがどうなっているか? > #お使いの1.1.7で使えるかどうか・・・ちょっと定かではありません。 > > 後はstonithモジュールもパラメータでリトライの回数や、タイムアウトなども設定できたりもしているので、 > そのあたりも見直してみた方がよいかも知れません。 > > #fencing_topologyがないと、1.1.12あたりでは、stonithの実行順番も制御できないはずなので・・・ > > > まずは、試していただいて、開示できる範囲で、crmファイルの全体も見せて頂いたほうが良いかも知れませんね。 > > また、可能であれば、1.1.12あたりの利用も考えてもらったほうが良いかも知れません。 > > #すいません、個人的な理由で、水曜日あたりまでは、あまりメールの反応がよくないかも知れません。 > > 以上です。 > > > ----- Original Message ----- > >From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****> > >To: renay****@ybb*****; linux****@lists***** > >Date: 2015/3/1, Sun 12:09 > >Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて > > > > > >山内さん > > > >福田です。 > >ご回答ありがとうございます。 > > > >今の状態は正常なんですね。 > >それでは明日、サービスネットワークを切って試してみたいと思います。 > > > >> crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。 > > > >fencing_topologyという設定はまだ入れていなかったです。 > >こちらを入れないと正しく動かないのでしょうか。 > > > >宜しくお願いします。 > > > >以上 > > > > > > > > > > > >2015年2月28日 7:41 <renay****@ybb*****>: > > > >福田さん > >> > >>おはようございます。山内です。 > >> > >>インターコネクト(10.0.17.X)が切れて、サービスネットワーク(192.168.17.X)が切れていない状態となっている > >>と思いますので、stonith-helperは、1を返して失敗しているはずです。(正しい検知) > >>その後、stonith-helperが失敗して、xen0,meatwareの順に実行が続くはずですので。。。 > >> > >>crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。 > >> > >>もしかすると、pacemaker1.1.7あたりでは、fencing_topologyが使えなかったかも?しれません・・・ > >> > >>fencing_topologyあたりの処理は、かなり、pacemaker1.1.12まで修正が入って動くようになりましたので、 > >>pacemakerのバージョンアップも必要かも知れません。 > >> > >>以上です。 > >> > >> > >> > >>----- Original Message ----- > >>>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****> > >>>To: linux****@lists***** > >>>Date: 2015/2/27, Fri 21:04 > >>>Subject: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて > >>> > >>> > >>>お世話になります、福田と申します。 > >>> > >>>debian Xen上で2ノードのクラスタシステムを構築して検証をしています。 > >>>Xen上でのstonith使用時のエラーについて質問させて頂きます。 > >>> > >>>環境: > >>> > >>>Dom0はdebian7.7, Xen 4.1.4-3+deb7u3 > >>>DomUはdebian7.8, pacemaker 1.1.7-1, heartbeat 1:3.0.5-3 > >>>同一Dom0上にクラスタ2台を構築しています。 > >>>pacemaker,heartbeatはdebianパッケージでインストールしています。 > >>>stonith-helper,xen0,meatwareプラグインを使用 > >>> > >>>ノード1(active)側のインターコネクト用LANインタフェースをダウンさせて、 > >>>スプリットブレインを発生させ、STONITHを行わせようとしています。 > >>> > >>>両ノードのcrm_monでは下記のようにお互いをuncleanと表示しています。 > >>> > >>> > >>>ノード1側 > >>>Node lbv2.beta.com (82ffc36f-1ad8-8686-7db0-35686465c624): UNCLEAN > (offl > >>>ine) > >>>Online: [ lbv1.beta.com ] > >>> > >>>ノード2側 > >>>Node lbv1.beta.com (38b0f200-83ea-8633-6f37-047d36cd39c6): UNCLEAN > (offl > >>>ine) > >>>Online: [ lbv2.beta.com ] > >>> > >>>ところがエラーメッセージが次のようにでてしまいます。 > >>> > >>>ノード1側 > >>>lbv1 [12657]: CRIT: external_reset_req: 'stonith-helper reset' for host > lbv2.beta.com failed with rc 1 > >>> > >>>ノード2側 > >>>lbv2 [22225]: CRIT: external_reset_req: 'stonith-helper reset' for host > lbv1.beta.com failed with rc 1 > >>> > >>>質問 > >>>この状態はSTONITHが動いておらず、stonith-helperのパラメータがおかしいのでしょうか? > >>> > >>>パラメータは次のようにしています。 > >>> > >>>primitive Stonith1-1 stonith:external/stonith-helper \ > >>> params \ > >>> priority="1" \ > >>> stonith-timeout="40" \ > >>> hostlist="lbv1.beta.com" \ > >>> dead_check_target="192.168.17.132 10.0.17.132" \ > >>> standby_wait_time="10" \ > >>> standby_check_command="/usr/sbin/crm_resource -r varnishd -W | > grep -q `hostname`" \ > >>> op start interval="0s" timeout="60s" on-fail="restart" \ > >>> op monitor interval="3600s" timeout="60s" on-fail="restart" \ > >>> op stop interval="0s" timeout="60s" on-fail="ignore" > >>> > >>>primitive Stonith2-1 stonith:external/stonith-helper \ > >>> params \ > >>> priority="1" \ > >>> stonith-timeout="40" \ > >>> hostlist="lbv2.beta.com" \ > >>> dead_check_target="192.168.17.133 10.0.17.133" \ > >>> standby_wait_time="10" \ > >>> standby_check_command="/usr/sbin/crm_resource -r varnishd -W | > grep -q `hostname`" \ > >>> op start interval="0s" timeout="60s" on-fail="restart" \ > >>> op monitor interval="3600s" timeout="60s" on-fail="restart" \ > >>> op stop interval="0s" timeout="60s" on-fail="ignore" > >>> > >>> > >>>192.168.17.0がサービス用、10.0.17.0がインターコネクト用に使用しているサブネットです。 > >>> > >>>ログは下記の通りです。 > >>> > >>>Feb 27 19:29:04 lbv1.beta.com stonith: [18566]: CRIT: > external_reset_req > >>>: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1 > >>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation: > >>>Operation 'reboot' [18565] (call 0 from > d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo > >>>r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2 > >>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation: > >>>Stonith2-1: Performing: stonith -t external/stonith-helper -T reset > lbv2. > >>>-beta.com > >>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation: > >>>Stonith2-1: failed: lbv2.beta.com 5 > >>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: > call_remote_ston > >>>ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c > >>>om > >>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: > can_fence_host_w > >>>ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list > >>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: > can_fence_host_w > >>>ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list > >>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: > can_fence_host_w > >>>ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list > >>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: stonith_fence: > F > >>>ound 3 matching devices for 'lbv2.beta.com' > >>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: > stonith_command: > >>> Processed st_fence from lbv1.beta.com: rc=-1 > >>>Feb 27 19:29:08 lbv1.beta.com crm_resource: [18790]: info: Invoked: > /usr > >>>/sbin/crm_resource -r varnishd -W > >>>Feb 27 19:29:09 lbv1.beta.com stonith: [18706]: CRIT: > external_reset_req > >>>: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1 > >>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation: > >>>Operation 'reboot' [18705] (call 0 from > d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo > >>>r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2 > >>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation: > >>>Stonith2-1: Performing: stonith -t external/stonith-helper -T reset > lbv2. > >>>-beta.com > >>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation: > >>>Stonith2-1: failed: lbv2.beta.com 5 > >>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: > call_remote_ston > >>>ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c > >>>om > >>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: > can_fence_host_w > >>>ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list > >>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: > can_fence_host_w > >>>ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list > >>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: > can_fence_host_w > >>>ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list > >>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: stonith_fence: > F > >>>ound 3 matching devices for 'lbv2.beta.com' > >>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: > stonith_command: > >>> Processed st_fence from lbv1.beta.com: rc=-1 > >>>Feb 27 19:29:13 lbv1.beta.com crm_resource: [18953]: info: Invoked: > /usr > >>>/sbin/crm_resource -r varnishd -W > >>> > >>>宜しくお願いします。 > >>> > >>> > >>>-- > >>> > >>>ELF Systems > >>>Masamichi Fukuda > >>>mail to: masamichi_fukud****@elf-s***** > >>>_______________________________________________ > >>>Linux-ha-japan mailing list > >>>Linux****@lists***** > >>>http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >>> > >>> > >>> > >> > >>_______________________________________________ > >>Linux-ha-japan mailing list > >>Linux****@lists***** > >>http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > >> > > > > > >-- > > > >ELF Systems > >Masamichi Fukuda > >mail to: masamichi_fukud****@elf-s***** > > > > > > -- ELF Systems Masamichi Fukuda mail to: *masamichi_fukud****@elf-s***** <elfsy****@gmail*****>* -------------- next part -------------- HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...下載