[Linux-ha-jp] pingリソースのfail-countについて

Back to archive index

Keisuke Nakamura k.xna****@gmail*****
2016年 11月 29日 (火) 18:22:09 JST


山内様、池田様

お世話になっております、nakaと申します。
ご説明有難うございます!とても助かります。
頂いた情報をもとに、pingリソースがどんな処理をしてるかを
理解するところから確認していきます。(heartbeatのログによく
attrd_updaterのメッセージは目にしてたのですが、触れずに
ここまで来てしまいました)
ping RAはfailcountを維持できるか?私の方でも確認してみます。

取り急ぎ御礼まで。


2016年11月29日 9:57 Junko IKEDA <tsuki****@gmail*****>:
> あれ、山内さんのメールを読み損なっていましたが
> ping RAはフェイルカウントを維持できるんでしたっけ。
> pingd RAはpingdデーモンの故障回数を維持してた気がしてましたが、勘違いしてました。
> 失礼しました。
>
> 池田淳子
>
>
> 2016/11/29 6:51 <renay****@ybb*****>:
>
>> nakaさん
>>
>> こんにちは、山内です。
>>
>> 詳細はログを見てみないとわかりませんが、
>> Pacemaker1.0系のpingリソースで利用しているattrd_updater(attrdプロセスへの属性更新)の仕様上、
>> 故障検知よりも、故障カウントのアップが遅れることが原因だと思われます。
>>
>> propertyに「crmd-transition-delay」パラメータがありますので、これを5sなどと設定してみてください。
>> これにより、全体的に故障発生時のフェイルオーバーが5s程度遅れてしまいますが、故障カウントの制御は
>> うまくいくはずです。
>>
>> CentOS6.2とOS環境が古いですが、可能であれば、Pacemaker1.1系の利用をご検討されることをお勧めします。
>>
>> 以上です。
>>
>>
>>
>> ----- Original Message -----
>> > From: Keisuke Nakamura <k.xna****@gmail*****>
>> > To: linux****@lists*****
>> > Cc:
>> > Date: 2016/11/25, Fri 14:03
>> > Subject: [Linux-ha-jp] pingリソースのfail-countについて
>> >
>> > 関係者各位
>> >
>> > お世話になっております。nakaと申します。
>> >
>> > 環境:
>> > CentOS 6.2(x86_64)
>> > pacemaker-1.0.12-1.el6.x86_64
>> > heartbeat-3.0.5-1.1.el6.x86_64
>> >
>> > (質問)
>> > pingリソースのfail-countについて質問です。
>> > pingリソースを利用しデフォルトゲートウェイへの疎通監視
>> > を設定している2ノードクラスタ構成を組んでおります。
>> > 先日弊社環境のネットワーク障害の影響で数分間、両ノードとも
>> > デフォゲへの疎通が不安定な状態となり、上記のpingリソースでの
>> > 異常を契機にクラスタグループリソースのF/Oが繰り返し行われました。
>> > その後ネットワークが復旧後は、繰り返し行われていたF/Oも止まり、
>> > サービスも正常に起動している状態となりました。
>> >
>> > 障害直後crm_monで状態をみても、fail-countが加算されてなく
>> > failed actionも表示されなかったのですが、pingリソースで
>> > F/Oの上限回数の設定はできるものでしょうか?(例えば3回F/O
>> > 繰り返したら停止するとか)
>> > fail-countについての情報を探し出せず、当メールにてご相談
>> > させて頂きました。お手隙の時にご教授頂けますと幸いです。
>> >
>> > (現状設定値の一部↓)
>> > primitive res_ping ocf:pacemaker:ping \
>> >         params name="eth0_ping_set" host_list="10.1.0.1"
>> > multiplier="200" dampen="1" debug="true"
>> > attempts="10" \
>> >         op monitor interval="10s" timeout="60" \
>> >         op start interval="0" timeout="60"
>> > …中略…
>> > property $id="cib-bootstrap-options" \
>> >         dc-version="1.0.12-066152e" \
>> >         cluster-infrastructure="Heartbeat" \
>> >         stonith-enabled="false" \
>> >         no-quorum-policy="ignore" \
>> >         default-action-timeout="120s" \
>> >         last-lrm-refresh="1463626573"
>> > rsc_defaults $id="rsc-options" \
>> >         resource-stickiness="INFINITY"
>> >
>> > 以上、宜しくお願い致します。
>> > _______________________________________________
>> > Linux-ha-japan mailing list
>> > Linux****@lists*****
>> > http://lists.osdn.me/mailman/listinfo/linux-ha-japan
>> >
>>
>> _______________________________________________
>> Linux-ha-japan mailing list
>> Linux****@lists*****
>> http://lists.osdn.me/mailman/listinfo/linux-ha-japan
>
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.osdn.me/mailman/listinfo/linux-ha-japan
>



-- 
Nakamura



Linux-ha-japan メーリングリストの案内
Back to archive index