[Linux-ha-jp] スプリットブレイン時の回復方法

Back to archive index

TAKATSUKA Haruka haruk****@sra*****
2014年 1月 22日 (水) 18:08:14 JST


高塚です。

・crm_mon 出力を見ますとノードが全て Online ですし、DC は一貫して host1
 ですし、ご認識の通り、これはスプリットブレインではないですね。

・片ノードで v_ipリソースに紐づくNIC に障害を起こすテストをしていて、
 障害をうけて、別ノードでリソースが起動したあと、リソースを元のノードに
 crm コマンドで戻すのにうまくいかないケースがある、ということですね。

 そのうまくいかない場合の諸情報を提示いただければ、だれか何か分かる
 かもしれません。

・スプリットブレインを疑似的に作り出すなら、iptables でノード間通信で
  使用しているポートを遮断してしまうのが簡単です。


On Wed, 22 Jan 2014 13:07:58 +0900
mlus <mlus****@39596*****> wrote:

> コヤマです。
> 
> 高塚さん、ご返答ありがとうございます。
> 長文にて失礼します。
> 
> > クラスタ管理部が corosync の場合については詳しく把握していませんが、
> > heartbeat の場合についていえば、
> > 双方が DC を名乗っている状態になった後で相互通信が復旧したとして、
> > 少なくとも片方の heartbeat プロセスを再起動をしないと、スプリット
> > ブレインを解消できないと思います。
> 
> テストとして、NICをホストから挿抜して行いましたが、
> スプリットブレインを擬似的に作り出せてないので、
> 想定していたテストが出来ていないのが現状です。
> 2つのノードとも、HAデーモン(pacemaker corosync)を起動させた
> ままのテストになりました。
> 片方(この場合active側)のHAデーモンを再起動してしまうケースだと、
> 私の知識では、standby側のHAデーモンを再起動なしに稼動したままでの
> crmコマンドを使って元に戻す事ができていません。
> 質問が上手くできていませんでしたが、この方法も知りたかったのです。
> 
> 再起動なしバージョンでは、テストと経過が以下のようになりまして、
> 一応元に戻すことができています。
(後略)





Linux-ha-japan メーリングリストの案内
Back to archive index