[Linux-ha-jp] 待機系がフェールオーバーし、再起動を繰り返す

Back to archive index

delta_syste****@yahoo***** delta_syste****@yahoo*****
2013年 6月 13日 (木) 15:48:18 JST


赤松 様
 
 
N.Oです。
 待機系がフェールオーバーし、再起動を繰り返す問題に対して
ha.cf の ucast に両系のIPアドレスを設定するように助言をいただき
ありがとうございました。
 
 両系のIPアドレスを指定すると下記のエラーメッセージが
出力されるようになりました。

 ERROR: Both machines own our resources!
 
 再度、設定をもとに戻し、エラーメッセージが出力されないよう
になりました。
 
 その後、待機系がフェールオーバーし、再起動を繰り返す現象は、再現して
いないことから、当時、ネットワーク環境が不安定だったことにで、通信エラー
になっていたのではないかと考えております。

本件は一旦、状況注視とさせていただこうと思います。
 
いろいろと助言をいただき、ありがとうございました。

なにとぞ、よろしくお願い申し上げます。

----- Original Message -----
> From: 赤松 <akamatsu_hiroshi_b1****@lab*****>
> To: delta_syste****@yahoo*****; linux****@lists*****
> Cc: 
> Date: 2013/6/4, Tue 11:25
> Subject: Re[2]: [Linux-ha-jp] 待機系がフェールオーバーし、再起動を繰り返す
> 
>T o:O.N さん
> 
>  はじめまして、赤松と申します。
> 
>  設定フィアルやログから気になった点をお伝えします。
> 
>  ●1
>  ucast を使っていながら ha.cf を同じにしてませんか?
> 
>  恐らく server1 は server2 が見えてるのに server2 が server1 を
>  見えていない状況かなぁと。
> 
>  ucast はお互いの NIC の IP を付与する必要があります。
>  もし運用上「間違いがないように同じ ha.cf にしたい」のなら
>  下記のように書いておく事を勧めます。
> 
>   両系の ha.cf
>   ---
>   ...
>   ucast eth1 10.10.10.10  <-- server1 の eth1 の実 IP
>   ucast eth1 10.10.10.11  <-- server2 の eth1 の実 IP
>   ...
> 
>  ●2
>  以下のログが出てます。
> 
>  heartbeat[3398]: 2013/06/03_13:21:37 WARN: node SEVER1.domain: is dead
>  heartbeat[3398]: 2013/06/03_13:21:37 info: Link SEVER1.domain:eth1 dead.
> 
>  これらは server2 にとって server1 が起動していない事を報告して
>  います。
>  起動後約2分でこれが出ている(initdead 120)ので、server2 にとっては
>  server1 が見えていないのでしょう。
> 
>  よって server2 はリソース起動を試みますが drbdadm primary r0 が
>  失敗しています。
>  失敗の理由は server1 が primary だからでしょう。
> 
>  失敗時の server1, server2 にてコマンド cat /proc/drbd を実行した
>  結果を出力すれば判ります。
> 
>  以上です。
>  





Linux-ha-japan メーリングリストの案内
Back to archive index