待機系がフェールオーバーし、再起動を繰り返す (Linux-ha-jp) - Linux-HA Japan

赤松　様

N.Oです。
　待機系がフェールオーバーし、再起動を繰り返す問題に対して
ha.cf の ucast に両系のIPアドレスを設定するように助言をいただき
ありがとうございました。

　両系のIPアドレスを指定すると下記のエラーメッセージが
出力されるようになりました。

　ERROR：　Both　machines own our resources!

　再度、設定をもとに戻し、エラーメッセージが出力されないよう
になりました。

　その後、待機系がフェールオーバーし、再起動を繰り返す現象は、再現して
いないことから、当時、ネットワーク環境が不安定だったことにで、通信エラー
になっていたのではないかと考えております。

本件は一旦、状況注視とさせていただこうと思います。

いろいろと助言をいただき、ありがとうございました。

なにとぞ、よろしくお願い申し上げます。

----- Original Message -----
> From: 赤松 <akamatsu_hiroshi_b1****@lab*****>
> To: delta_syste****@yahoo*****; linux****@lists*****
> Cc: 
> Date: 2013/6/4, Tue 11:25
> Subject: Re[2]: [Linux-ha-jp] 待機系がフェールオーバーし、再起動を繰り返す
> 
>T o:O.N さん
> 
> 　はじめまして、赤松と申します。
> 
> 　設定フィアルやログから気になった点をお伝えします。
> 
> 　●１
> 　ucast を使っていながら ha.cf を同じにしてませんか？
> 
> 　恐らく server1 は server2 が見えてるのに server2 が server1 を
> 　見えていない状況かなぁと。
> 
> 　ucast はお互いの NIC の IP を付与する必要があります。
> 　もし運用上「間違いがないように同じ ha.cf にしたい」のなら
> 　下記のように書いておく事を勧めます。
> 
> 　　両系の ha.cf
> 　　---
> 　　...
> 　　ucast eth1 10.10.10.10  <-- server1 の eth1 の実 IP
> 　　ucast eth1 10.10.10.11  <-- server2 の eth1 の実 IP
> 　　...
> 
> 　●２
> 　以下のログが出てます。
> 
> 　heartbeat[3398]: 2013/06/03_13:21:37 WARN: node SEVER1.domain: is dead
> 　heartbeat[3398]: 2013/06/03_13:21:37 info: Link SEVER1.domain:eth1 dead.
> 
> 　これらは server2 にとって server1 が起動していない事を報告して
> 　います。
> 　起動後約2分でこれが出ている（initdead 120）ので、server2 にとっては
> 　server1 が見えていないのでしょう。
> 
> 　よって server2 はリソース起動を試みますが drbdadm primary r0 が
> 　失敗しています。
> 　失敗の理由は server1 が primary だからでしょう。
> 
> 　失敗時の server1, server2 にてコマンド cat /proc/drbd を実行した
> 　結果を出力すれば判ります。
> 
> 　以上です。
>  

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] 待機系がフェールオーバーし、再起動を繰り返す

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools