[Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて

Back to archive index

renay****@ybb***** renay****@ybb*****
2015年 3月 4日 (水) 09:05:41 JST


福田さん

おはようございます。山内です。

1点、先に試して頂きたいstonithコマンドについてご連絡しておきます。

xen0が動いていないかも知れないとのことですので、以下を参照してxen0を個別で実行してみると良いとおもいます。

●stonithコマンドの例(例はlibvirt)
stonith -t external/libvirt hostlist="xx01" hypervisor_uri="xxxxx" reset_method="reboot"  -T reset ap01 

PM1.1.7でも動くとは思いますが、コマンドライン的には

 stonith -t 実行するstonithプラグイン パラメータ1・・・パラメータN -T 実行動作 stonithするホスト

です。
xen0単体の実行でも、stonithを実行するホストから相手(故障を想定)ホストをこのコマンドで実行できます。

まずは、xen0の動作を確認してみてください。

以上です。


----- Original Message -----
>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
>To: 山内英生 <renay****@ybb*****> 
>Cc: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>; "linux****@lists*****" <linux****@lists*****>
>Date: 2015/3/3, Tue 10:43
>Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
> 
>
>山内さん
>
>お世話になります、福田です。
>
>お忙しいところすみませんが、宜しくお願いします。
>
>
>
>2015年3月3日 9:27 <renay****@ybb*****>:
>
>福田さん
>>
>>こんにちは、山内です。
>>
>>詳細は失念していますので、明日にでもまたご連絡しますが。。。。
>>
>>stonithモジュールの単体の実行をstonithコマンドで試せますので、
>>xen0の実行をパラメータも指定して実行してみた方がよさそうです。
>>
>>また、明日にでもお送りいただいた設定ファイルの中身も含めて、確認して
>>ご連絡しますね。
>>
>>以上です。
>>
>>
>>----- Original Message -----
>>>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
>>
>>>To: 山内英生 <renay****@ybb*****>
>>>Cc: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>; "linux****@lists*****" <linux****@lists*****>
>>>Date: 2015/3/2, Mon 12:10
>>>Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
>>>  
>>>
>>>山内さん
>>>
>>>こんにちは、福田です。
>>>
>>>前回と同じようにインターコネクトlanのインタフェースをdownさせてみましたが、
>>>やはり次のstonithモジュール(xen0)が実行されないようです。
>>>
>>>サービスlanのインタフェースをdownさせると、ノード2にフィエルオーバします。
>>>
>>>crmの設定ファイルは次のようにしています。
>>>
>>>### Cluster Option ###
>>>property \
>>>    no-quorum-policy="ignore" \
>>>    stonith-enabled="true" \
>>>    startup-fencing="false" \
>>>    stonith-timeout="710s" \
>>>    crmd-transition-delay="2s"
>>>
>>>### Resource Default ###
>>>rsc_defaults \
>>>    resource-stickiness="INFINITY" \
>>>    migration-threshold="1"
>>>
>>>### Group Configuration ###
>>>group HAvarnish \
>>>    vip_208 \
>>>    varnishd
>>>
>>>group grpStonith1 \
>>>    Stonith1-1 \
>>>    Stonith1-2 \
>>>    Stonith1-3
>>>
>>>group grpStonith2 \
>>>    Stonith2-1 \
>>>    Stonith2-2 \
>>>    Stonith2-3
>>>
>>>### Clone Configuration ###
>>>clone clone_ping \
>>>    ping
>>>
>>>### Primitive Configuration ###
>>>primitive vip_208 ocf:heartbeat:IPaddr2 \
>>>    params \
>>>        ip="192.168.17.208" \
>>>        nic="eth0" \
>>>        cidr_netmask="24" \
>>>    op start interval="0s" timeout="90s" on-fail="restart" \
>>>    op monitor interval="5s" timeout="60s" on-fail="restart" \
>>>    op stop interval="0s" timeout="100s" on-fail="fence"
>>>
>>>primitive varnishd lsb:varnish \
>>>    op start interval="0s" timeout="90s" on-fail="restart" \
>>>    op monitor interval="10s" timeout="60s" on-fail="restart" \
>>>    op stop interval="0s" timeout="100s" on-fail="fence"
>>>
>>>primitive ping ocf:pacemaker:ping \
>>>    params \
>>>        name="default_ping_set" \
>>>        host_list="192.168.17.254" \
>>>        multiplier="100" \
>>>        dampen="1" \
>>>    op start interval="0s" timeout="90s" on-fail="restart" \
>>>    op monitor interval="10s" timeout="60s" on-fail="restart" \
>>>    op stop interval="0s" timeout="100s" on-fail="fence"
>>>
>>>primitive Stonith1-1 stonith:external/stonith-helper \
>>>    params \
>>>        priority="1" \
>>>        stonith-timeout="40" \
>>>        hostlist="lbv1.beta.com" \
>>>        dead_check_target="192.168.17.132 10.0.17.132" \
>>>        standby_wait_time="10" \
>>>        standby_check_command="/usr/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \
>>>    op start interval="0s" timeout="60s" on-fail="restart" \
>>>        stonith-timeout="300" \
>>>        hostlist="lbv1.beta.com:/etc/xen/lbv1.cfg" \
>>>        dom0="dom0.xxxx.com" \
>>>    op start interval="0s" timeout="60s" on-fail="restart" \
>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
>>>
>>>primitive Stonith1-3 stonith:meatware \
>>>    params \
>>>        priority="3" \
>>>        stonith-timeout="600" \
>>>        hostlist="lbv1.beta.com" \
>>>    op start interval="0s" timeout="60s" \
>>>    op monitor interval="3600s" timeout="60s" \
>>>    op stop interval="0s" timeout="60s"
>>>
>>>primitive Stonith2-1 stonith:external/stonith-helper \
>>>    params \
>>>        priority="1" \
>>>        stonith-timeout="40" \
>>>        hostlist="lbv2.beta.com" \
>>>        dead_check_target="192.168.17.133 10.0.17.133" \
>>>        standby_wait_time="10" \
>>>        standby_check_command="/usr/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \
>>>    op start interval="0s" timeout="60s" on-fail="restart" \
>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
>>>
>>>primitive Stonith2-2 stonith:external/xen0 \
>>>    params \
>>>        priority="2" \
>>>        stonith-timeout="300" \
>>>        hostlist="lbv2.beta.com:/etc/xen/lbv2.cfg" \
>>>        dom0="dom0.xxxx.com" \
>>>    op start interval="0s" timeout="60s" on-fail="restart" \
>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
>>>
>>>primitive Stonith2-3 stonith:meatware \
>>>    params \
>>>        priority="3" \
>>>        stonith-timeout="600" \
>>>        hostlist="lbv2.beta.com" \
>>>    op start interval="0s" timeout="60s" \
>>>    op monitor interval="3600s" timeout="60s" \
>>>    op stop interval="0s" timeout="60s"
>>>
>>>### Resource Location ###
>>>location HA_location-1 HAvarnish \
>>>    rule 200: #uname eq lbv1.beta.com \
>>>    rule 100: #uname eq lbv2.beta.com
>>>
>>>location HA_location-2 HAvarnish \
>>>    rule -INFINITY: not_defined default_ping_set or default_ping_set lt 100
>>>
>>>location HA_location-3 grpStonith1 \
>>>    rule -INFINITY: #uname eq lbv1.beta.com
>>>
>>>location HA_location-4 grpStonith2 \
>>>    rule -INFINITY: #uname eq lbv2.beta.com
>>>
>>>DomU(lbv1とlbv2)からDom0へはrootでssh、パスワードなしでログインできるようにはなっています。
>>>
>>>xen0のパラメータで不足分ありますでしょうか。
>>>
>>>宜しくお願いします。
>>>
>>>以上
>>>
>>>
>>>
>>>
>>>
>>>
>>>2015年3月1日 16:54 <renay****@ybb*****>:
>>>
>>>福田さん
>>>>
>>>>こんにちは、山内です。
>>>>
>>>>流れ的には正常です。
>>>>ただ、helperの次のstonithモジュール(xen0)が実行されていないようなので、こちらは問題です。
>>>>
>>>>ただ、先にも書きましたが、pacemakerのバージョンでfencing_topologyがどうなっているか?
>>>>#お使いの1.1.7で使えるかどうか・・・ちょっと定かではありません。
>>>>
>>>>後はstonithモジュールもパラメータでリトライの回数や、タイムアウトなども設定できたりもしているので、
>>>>そのあたりも見直してみた方がよいかも知れません。
>>>>
>>>>#fencing_topologyがないと、1.1.12あたりでは、stonithの実行順番も制御できないはずなので・・・
>>>>
>>>>
>>>>まずは、試していただいて、開示できる範囲で、crmファイルの全体も見せて頂いたほうが良いかも知れませんね。
>>>>
>>>>また、可能であれば、1.1.12あたりの利用も考えてもらったほうが良いかも知れません。
>>>>
>>>>#すいません、個人的な理由で、水曜日あたりまでは、あまりメールの反応がよくないかも知れません。
>>>>
>>>>以上です。
>>>>
>>>>
>>>>----- Original Message -----
>>>>>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
>>>>
>>>>>To: renay****@ybb*****; linux****@lists*****
>>>>>Date: 2015/3/1, Sun 12:09
>>>>>Subject: Re: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
>>>>>  
>>>>>
>>>>>山内さん
>>>>>
>>>>>福田です。
>>>>>ご回答ありがとうございます。
>>>>>
>>>>>今の状態は正常なんですね。
>>>>>それでは明日、サービスネットワークを切って試してみたいと思います。
>>>>>
>>>>>> crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。
>>>>>
>>>>>fencing_topologyという設定はまだ入れていなかったです。
>>>>>こちらを入れないと正しく動かないのでしょうか。
>>>>>
>>>>>宜しくお願いします。
>>>>>
>>>>>以上
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>2015年2月28日 7:41 <renay****@ybb*****>:
>>>>>
>>>>>福田さん
>>>>>>
>>>>>>おはようございます。山内です。
>>>>>>
>>>>>>インターコネクト(10.0.17.X)が切れて、サービスネットワーク(192.168.17.X)が切れていない状態となっている
>>>>>>と思いますので、stonith-helperは、1を返して失敗しているはずです。(正しい検知)
>>>>>>その後、stonith-helperが失敗して、xen0,meatwareの順に実行が続くはずですので。。。
>>>>>>
>>>>>>crm設定ファイルのfencing_topologyの設定を見直してみた方がよいと思います。
>>>>>>
>>>>>>もしかすると、pacemaker1.1.7あたりでは、fencing_topologyが使えなかったかも?しれません・・・
>>>>>>
>>>>>>fencing_topologyあたりの処理は、かなり、pacemaker1.1.12まで修正が入って動くようになりましたので、
>>>>>>pacemakerのバージョンアップも必要かも知れません。
>>>>>>
>>>>>>以上です。
>>>>>>
>>>>>>
>>>>>>
>>>>>>----- Original Message -----
>>>>>>>From: Masamichi Fukuda - elf-systems <masamichi_fukud****@elf-s*****>
>>>>>>>To: linux****@lists*****
>>>>>>>Date: 2015/2/27, Fri 21:04
>>>>>>>Subject: [Linux-ha-jp] スプリットブレイン時のSTONITHエラーについて
>>>>>>>
>>>>>>>
>>>>>>>お世話になります、福田と申します。
>>>>>>>
>>>>>>>debian Xen上で2ノードのクラスタシステムを構築して検証をしています。
>>>>>>>Xen上でのstonith使用時のエラーについて質問させて頂きます。
>>>>>>>
>>>>>>>環境:
>>>>>>>
>>>>>>>Dom0はdebian7.7, Xen 4.1.4-3+deb7u3
>>>>>>>DomUはdebian7.8, pacemaker 1.1.7-1, heartbeat 1:3.0.5-3
>>>>>>>同一Dom0上にクラスタ2台を構築しています。
>>>>>>>pacemaker,heartbeatはdebianパッケージでインストールしています。
>>>>>>>stonith-helper,xen0,meatwareプラグインを使用
>>>>>>>
>>>>>>>ノード1(active)側のインターコネクト用LANインタフェースをダウンさせて、
>>>>>>>スプリットブレインを発生させ、STONITHを行わせようとしています。
>>>>>>>
>>>>>>>両ノードのcrm_monでは下記のようにお互いをuncleanと表示しています。
>>>>>>>
>>>>>>>
>>>>>>>ノード1側
>>>>>>>Node lbv2.beta.com (82ffc36f-1ad8-8686-7db0-35686465c624): UNCLEAN (offl
>>>>>>>ine)
>>>>>>>Online: [ lbv1.beta.com ]
>>>>>>>
>>>>>>>ノード2側
>>>>>>>Node lbv1.beta.com (38b0f200-83ea-8633-6f37-047d36cd39c6): UNCLEAN (offl
>>>>>>>ine)
>>>>>>>Online: [ lbv2.beta.com ]
>>>>>>>
>>>>>>>ところがエラーメッセージが次のようにでてしまいます。
>>>>>>>
>>>>>>>ノード1側
>>>>>>>lbv1 [12657]: CRIT: external_reset_req: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
>>>>>>>
>>>>>>>ノード2側
>>>>>>>lbv2 [22225]: CRIT: external_reset_req: 'stonith-helper reset' for host lbv1.beta.com failed with rc 1
>>>>>>>
>>>>>>>質問
>>>>>>>この状態はSTONITHが動いておらず、stonith-helperのパラメータがおかしいのでしょうか?
>>>>>>>
>>>>>>>パラメータは次のようにしています。
>>>>>>>
>>>>>>>primitive Stonith1-1 stonith:external/stonith-helper \
>>>>>>>    params \
>>>>>>>        priority="1" \
>>>>>>>        stonith-timeout="40" \
>>>>>>>        hostlist="lbv1.beta.com" \
>>>>>>>        dead_check_target="192.168.17.132 10.0.17.132" \
>>>>>>>        standby_wait_time="10" \
>>>>>>>        standby_check_command="/usr/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \
>>>>>>>    op start interval="0s" timeout="60s" on-fail="restart" \
>>>>>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>>>>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
>>>>>>>
>>>>>>>primitive Stonith2-1 stonith:external/stonith-helper \
>>>>>>>    params \
>>>>>>>        priority="1" \
>>>>>>>        stonith-timeout="40" \
>>>>>>>        hostlist="lbv2.beta.com" \
>>>>>>>        dead_check_target="192.168.17.133 10.0.17.133" \
>>>>>>>        standby_wait_time="10" \
>>>>>>>        standby_check_command="/usr/sbin/crm_resource -r varnishd -W | grep -q `hostname`" \
>>>>>>>    op start interval="0s" timeout="60s" on-fail="restart" \
>>>>>>>    op monitor interval="3600s" timeout="60s" on-fail="restart" \
>>>>>>>    op stop interval="0s" timeout="60s" on-fail="ignore"
>>>>>>>
>>>>>>>
>>>>>>>192.168.17.0がサービス用、10.0.17.0がインターコネクト用に使用しているサブネットです。
>>>>>>>
>>>>>>>ログは下記の通りです。
>>>>>>>
>>>>>>>Feb 27 19:29:04 lbv1.beta.com stonith: [18566]: CRIT: external_reset_req
>>>>>>>: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
>>>>>>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
>>>>>>>Operation 'reboot' [18565] (call 0 from d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo
>>>>>>>r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2
>>>>>>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
>>>>>>>Stonith2-1: Performing: stonith -t external/stonith-helper -T reset lbv2.
>>>>>>>-beta.com
>>>>>>>Feb 27 19:29:04 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
>>>>>>>Stonith2-1: failed: lbv2.beta.com 5
>>>>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: call_remote_ston
>>>>>>>ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c
>>>>>>>om
>>>>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
>>>>>>>ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list
>>>>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
>>>>>>>ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list
>>>>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
>>>>>>>ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list
>>>>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: stonith_fence: F
>>>>>>>ound 3 matching devices for 'lbv2.beta.com'
>>>>>>>Feb 27 19:29:05 lbv1.beta.com stonith-ng: [2815]: info: stonith_command:
>>>>>>> Processed st_fence from lbv1.beta.com: rc=-1
>>>>>>>Feb 27 19:29:08 lbv1.beta.com crm_resource: [18790]: info: Invoked: /usr
>>>>>>>/sbin/crm_resource -r varnishd -W
>>>>>>>Feb 27 19:29:09 lbv1.beta.com stonith: [18706]: CRIT: external_reset_req
>>>>>>>: 'stonith-helper reset' for host lbv2.beta.com failed with rc 1
>>>>>>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
>>>>>>>Operation 'reboot' [18705] (call 0 from d2acf6a5-ef8d-4249-aaab-25a8686d6647) fo
>>>>>>>r host 'lbv2.beta.com' with device 'Stonith2-1' returned: -2
>>>>>>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
>>>>>>>Stonith2-1: Performing: stonith -t external/stonith-helper -T reset lbv2.
>>>>>>>-beta.com
>>>>>>>Feb 27 19:29:09 lbv1.beta.com stonith-ng: [2815]: ERROR: log_operation:
>>>>>>>Stonith2-1: failed: lbv2.beta.com 5
>>>>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: call_remote_ston
>>>>>>>ith: Requesting that lbv1.beta.com perform op reboot lbv2.beta.c
>>>>>>>om
>>>>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
>>>>>>>ith_device: Stonith2-1 can fence lbv2.beta.com: dynamic-list
>>>>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
>>>>>>>ith_device: Stonith2-2 can fence lbv2.beta.com: dynamic-list
>>>>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: can_fence_host_w
>>>>>>>ith_device: Stonith2-3 can fence lbv2.beta.com: dynamic-list
>>>>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: stonith_fence: F
>>>>>>>ound 3 matching devices for 'lbv2.beta.com'
>>>>>>>Feb 27 19:29:10 lbv1.beta.com stonith-ng: [2815]: info: stonith_command:
>>>>>>> Processed st_fence from lbv1.beta.com: rc=-1
>>>>>>>Feb 27 19:29:13 lbv1.beta.com crm_resource: [18953]: info: Invoked: /usr
>>>>>>>/sbin/crm_resource -r varnishd -W
>>>>>>>
>>>>>>>宜しくお願いします。
>>>>>>>
>>>>>>>
>>>>>>>--
>>>>>>>
>>>>>>>ELF Systems
>>>>>>>Masamichi Fukuda
>>>>>>>mail to: masamichi_fukud****@elf-s*****
>>>>>>>_______________________________________________
>>>>>>>Linux-ha-japan mailing list
>>>>>>>Linux****@lists*****
>>>>>>>http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>
>>>>>>_______________________________________________
>>>>>>Linux-ha-japan mailing list
>>>>>>Linux****@lists*****
>>>>>>http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>>>
>>>>>
>>>>>
>>>>>--
>>>>>
>>>>>ELF Systems
>>>>>Masamichi Fukuda
>>>>>mail to: masamichi_fukud****@elf-s*****  
>>>>>
>>>>>  
>>>>
>>>>
>>>
>>>
>>>--
>>>
>>>ELF Systems
>>>Masamichi Fukuda
>>>mail to: masamichi_fukud****@elf-s*****  
>>>
>>>  
>>
>>
>
>
>-- 
>
>ELF Systems
>Masamichi Fukuda
>mail to: masamichi_fukud****@elf-s*****
>
>





Linux-ha-japan メーリングリストの案内
Back to archive index