[Linux-ha-jp] 待機系がフェールオーバーし、再起動を繰り返す

Back to archive index

赤松 akamatsu_hiroshi_b1****@lab*****
2013年 6月 4日 (火) 11:25:27 JST


To:O.N さん

 はじめまして、赤松と申します。

 設定フィアルやログから気になった点をお伝えします。

 ●1
 ucast を使っていながら ha.cf を同じにしてませんか?

 恐らく server1 は server2 が見えてるのに server2 が server1 を
 見えていない状況かなぁと。

 ucast はお互いの NIC の IP を付与する必要があります。
 もし運用上「間違いがないように同じ ha.cf にしたい」のなら
 下記のように書いておく事を勧めます。

  両系の ha.cf
  ---
  ...
  ucast eth1 10.10.10.10  <-- server1 の eth1 の実 IP
  ucast eth1 10.10.10.11  <-- server2 の eth1 の実 IP
  ...

 ●2
 以下のログが出てます。

 heartbeat[3398]: 2013/06/03_13:21:37 WARN: node SEVER1.domain: is dead
 heartbeat[3398]: 2013/06/03_13:21:37 info: Link SEVER1.domain:eth1 dead.

 これらは server2 にとって server1 が起動していない事を報告して
 います。
 起動後約2分でこれが出ている(initdead 120)ので、server2 にとっては
 server1 が見えていないのでしょう。

 よって server2 はリソース起動を試みますが drbdadm primary r0 が
 失敗しています。
 失敗の理由は server1 が primary だからでしょう。

 失敗時の server1, server2 にてコマンド cat /proc/drbd を実行した
 結果を出力すれば判ります。

 以上です。





Linux-ha-japan メーリングリストの案内
Back to archive index