[Linux-ha-jp] マスター側のvipが停止した原因と対処方法について

Back to archive index

Takatoshi MATSUO matsu****@gmail*****
2013年 6月 17日 (月) 19:42:37 JST


大渕さん
松尾です。

> Master/Slave構成にした場合にMaster側で今回と同様の事象が再発した場合、フェールオーバーしてくれますでしょうか?

はい。
github の wiki と同じ設定使われているならば、vip-master 故障時はフェイルオーバします。


2013年6月17日 19:27 大渕昭夫 <butch****@gmail*****>:
> 赤松様
>
> 大渕です。
>
> 早速ご確認いただき、本当にありがとうございます!
>
> かしこまりました。
>
> centOS5でそういった事象があるのか、調べたり問い合わせたりしてみます。
>
> また、再発した場合は教わったコマンドで対処しようと思います!
>
> いろいろとありがとうございます。
>
> すいません、もう一点だけ教えてください。
>
> Master/Slave構成にした場合にMaster側で今回と同様の事象が再発した場合、フェールオーバーしてくれますでしょうか?
>
> 以上、よろしくお願いします。
>
> 2013年6月17日月曜日 赤松 akamatsu_hiroshi_b1****@lab*****:
>>
>> To:大渕さん
>>
>>  赤松です。
>>
>>  資材一通りみましたが、結論から言うと原因は判りませんでした。
>>
>>  簡単に事象を説明すると、大渕さんの環境で起きた事は vip-master の
>>  監視にて eth0 という NIC が存在しているかの確認を行った所、見当た
>>  らなかったので異常発生と判断しています。
>>
>>  この NIC の存在確認では、松尾さんのおっしゃるとおり /proc/net/dev
>>  を参照しています。
>>  この中に "etho0:" の行が無い為、異常と判定されています。
>>
>>  で、判らないのは vip-slave も eth0 を使ってて、こちらは今も監視
>>  異常が発生していない(つまり /proc/net/dev に eth0: がある)と
>>  判定されています。
>>  (# cat /proc/net/dev で判ります)
>>
>>  default_ping_set でも異常を検知してない。
>>  これも eth0 を経由して監視していますよね。
>>  つまり eth0 は生きている。
>>
>>  また /var/log/messages には当時怪しい情報も無い。
>>
>>  申し訳ないですが、これ以上は頂いた情報からは判らないです。
>>
>>  今回のような CentOS5 では一瞬 /proc/net/dev にて NIC の情報が
>>  消える事があり得るのか、有識者から情報を得るか、Cent のコミュニ
>>  ティで探してバグパッチがあれば当てるとかしか手はなさそう。
>>
>>  もちろん、もしかしたら全然違う理由かもしれません。
>>
>>
>>  ちなみに下記コマンドで vip-master は復旧する筈です。
>>
>>   # crm_resource -C -r vip-master -N ptdb02.localdomain
>>
>>  あまり力になれなかったですね、すいませんでした。
>>
>>
>> > 赤松様
>> >
>> > 大渕です。
>> >
>> > 早速ですが、先ほどご指示いただいたファイルを添付いたします。
>> >
>> > マスクはしておりません。
>> > messagesについては容量が大きかったので6月12日から6月17日11時ごろまでの情報と
>> > なっております。
>> >
>> > ご確認とアドバイスいただければと思います。
>> >
>> > お忙しいところご対応いただき、本当に助かります。
>> >
>> > 以上、よろしくお願いいたします。
>> >
>> >
>> >
>> > 2013年6月17日 15:51 大渕昭夫 <butch****@gmail*****>:
>> >
>> > > 松尾様
>> > >
>> > > 早速のご返事ありがとうございます!
>> > >
>> > > NetworkManagerは起動している?ようですが自動起動にはなっていませんでした。
>> > > IC-lan用のLANケーブルを接続した際にGUIで設定したような気がするので、そのせ
>> > > いかもしれません。
>> > >
>> > > [root @ ptdb02 ~]# ps awx | grep Network
>> > >  3854 ?        S      0:00 /usr/sbin/nm-system-settings --config
>> > > /etc/NetworkManager/nm-system-settings.conf
>> > >
>> > > [root @ ptdb02 ~]# chkconfig --list NetworkManager
>> > > NetworkManager  0:off   1:off   2:off   3:off   4:off   5:off   6:off
>> > >
>> > > messagesなどの情報を確認した後にサーバーを再起動してみようかと思います。
>> > >
>> > > 以上、よろしくお願いいたします。
>> > >
>> > >
>> > > 2013年6月17日 15:44 大渕昭夫 <butch****@gmail*****>:
>> > >
>> > > 赤松様
>> > >>
>> > >> 早速のご返事ありがとうございます!
>> > >>
>> > >> 該当の情報でマスクする部分を上席に確認し、送信させていただきます。
>> > >>
>> > >> 以上、よろしくお願いいたします。
>> > >>
>> > >>
>> > >>
>> > >> 2013年6月17日 15:11 Takatoshi MATSUO <matsu****@gmail*****>:
>> > >>
>> > >> 大渕さん
>> > >>>
>> > >>> 松尾です。
>> > >>>
>> > >>> eth0 インタフェースが消えてしまったように見えます。
>> > >>> 具体的には、/proc/net/dev に eth0 が表示されなくなったのではないかと思い
>> > >>> ます。
>> > >>> Pacemakerのログからは根本原因がわかりませんので、まずは /var/log/
>> > >>> messages を確認されてみてはいかがでしょうか。
>> > >>>
>> > >>> それと、今回の原因とは直接関係ないかもしれませんが、もしNetworkManager
>> > >>> を起動されているならば停止し、
>> > >>> ネットワークは手動で設定されことをお勧めします。
>> > >>> NetworkManager が勝手にネットワーク変更することがあるので。
>> > >>>
>> > >>>
>> > >>> 2013年6月17日 14:30 大渕昭夫 <butch****@gmail*****>:
>> > >>> > 初めまして。
>> > >>> > 大渕昭夫と申します。
>> > >>> >
>> > >>> > アドバイス等いただきたくメールさせていただきました。
>> > >>> >
>> > >>> > 内容としましては、マスター側のvipが停止してしまったことの原因と対処方
>> > >>> > 法についてです。
>> > >>> > あまり技術的に詳しくなく、原因がわからず困っております。
>> > >>> >
>> > >>> > こちらを参考にさせていただき、PostgreSQLを冗長化すべく作業をしておりま
>> > >>> > す。設定も構成も同じで構築しております。
>> > >>> >
>> > >>>
>> > >>> https://github.com/t-matsuo/resource-agents/wiki/PostgreSQL-9.1-%E3%82%
>> > >>>
>> > >>> B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0%E3%83%AC%E3%83%
>> > >>>
>> > >>> 97%E3%83%AA%E3%82%B1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E5%AF%BE%E5%BF%
>> > >>>
>> > >>> 9C-%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9%E3%82%A8%E3%83%BC%E3%82%B8%E3%82
>> > >>> %A7%E3%83%B3%E3%83%88
>> > >>> >
>> > >>> >
>> > >>> >
>> > >>> 現在、本番稼働中のサーバー(ptdb01)はそのままで、新サーバー(ptdb02)を
>> > >>> Master機として構築、しばらくptdb02のみで稼働させて、問題なければptdb01を
>> > >>> 停止し、ptdb01に同環境をインストールした後にスレーブ機として追加して、最
>> > >>> 終的に上記参考のようなMater/Slave構成にしたいと考えております。
>> > >>> >
>> > >>> >
>> > >>> ptdb02にPacemaker1.0.13-1.1とPostgreSQL9.2.4をインストールし、6月13日に
>> > >>> 無事に稼働したのを確認いたしました。
>> > >>> > OSはCentOS5です。
>> > >>> > また、pacemaker稼働中にcrm configure のedit
>> > >>> > でvip-masterを変更するテストをしたのですが、その時はきちんと変更されて
>> > >>> > 稼働しました。
>> > >>> >
>> > >>> > vip-masterからのデータベースへのアクセスも問題なくできていました。
>> > >>> >
>> > >>> > ところが、今朝モニターしてみると以下のような表示になり、vip-masterにア
>> > >>> > クセスできなくなっていました。
>> > >>> >
>> > >>> > ============
>> > >>> > Last updated: Mon Jun 17 09:29:32 2013
>> > >>> > Stack: Heartbeat
>> > >>> > Current DC: ptdb02.localdomain
>> > >>> > (2dfbfb70-566a-400c-b378-62917dee7e9e)
>> > >>> > -
>> > >>> > partition with quorum
>> > >>> > Version: 1.0.13-30bb726
>> > >>> > 1 Nodes configured, unknown expected votes
>> > >>> > 4 Resources configured.
>> > >>> > ============
>> > >>> > Online: [ ptdb02.localdomain ]
>> > >>> > vip-slave       (ocf::heartbeat:IPaddr2):       Started
>> > >>> ptdb02.localdomain
>> > >>> >  Master/Slave Set: msPostgresql
>> > >>> >      Masters: [ ptdb02.localdomain ]
>> > >>> >      Stopped: [ pgsql:1 ]
>> > >>> >  Clone Set: clnPingCheck
>> > >>> >      Started: [ ptdb02.localdomain ]
>> > >>> > Node Attributes:
>> > >>> > * Node ptdb02.localdomain:
>> > >>> >     + default_ping_set                  : 100
>> > >>> >     + master-pgsql:0                    : 1000
>> > >>> >     + pgsql-data-status                 : LATEST
>> > >>> >     + pgsql-master-baseline             : 0000000755000080
>> > >>> >     + pgsql-status                      : PRI
>> > >>> > Failed actions:
>> > >>> >     vip-master_monitor_10000 (node=ptdb02.localdomain, call=19,
>> > >>> > rc=6,
>> > >>> > status=complete): not configured
>> > >>> >
>> > >>> >
>> > >>> > ha-logを確認したところ6月15日の20:22にvip-masterが止まっていました。
>> > >>> > 該当箇所は以下の通りです。
>> > >>> >
>> > >>> > Jun 15 20:22:48 ptdb02 cib: [19850]: info: cib_stats: Processed
>> > >>> > 2169
>> > >>> > operations (3416.00us average, 1% utilization) in the last 10min
>> > >>> > Jun 15 20:23:28 ptdb02 IPaddr2(vip-master)[30902]: ERROR: Unknown
>> > >>> interface
>> > >>> > [eth0] No such device.
>> > >>> > IPaddr2(vip-master)[30902]: 2013/06/15_20:23:28 ERROR: Unknown
>> > >>> interface
>> > >>> > [eth0] No such device.
>> > >>> > Jun 15 20:23:28 ptdb02 IPaddr2(vip-master)[30902]: ERROR: [findif]
>> > >>> failed
>> > >>> > IPaddr2(vip-master)[30902]: 2013/06/15_20:23:28 ERROR: [findif]
>> > >>> > failed
>> > >>> > Jun 15 20:23:28 ptdb02 crmd: [19854]: info: process_lrm_event: LRM
>> > >>> operation
>> > >>> > vip-master_monitor_10000 (call=19, rc=6, cib-update=250,
>> > >>> confirmed=false)
>> > >>> > not configured
>> > >>> > Jun 15 20:23:28 ptdb02.localdomain crmd: [19854]: info:
>> > >>> process_lrm_event:
>> > >>> > LRM operation vip-master_monitor_10000 (call=19, rc=6,
>> > >>> > cib-update=250,
>> > >>> > confirmed=false) not configured
>> > >>> >
>> > >>> > 以上です。
>> > >>> >
>> > >>> > なお、6月14日から6月17日の朝までは誰もptdb02にアクセスはしておりません。
>> > >>> >
>> > >>> > お忙しいところ恐縮ですが、こちらの原因と対処方法などについてご教授いた
>> > >>> > だけますとありがたいです。
>> > >>> >
>> > >>> > ほかに必要な情報等あれば、ご指示いただければと思います。
>> > >>> >
>> > >>> > 以上、よろしくお願い申し上げます。
>> > >>> >
>> > >>> >
>> > >>> >
>> > >>> > _______________________________________________
>> > >>> > Linux-ha-japan mailing list
>> > >>> > Linux****@lists*****
>> > >>> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>> > >>> >
>> > >>> _______________________________________________
>> > >>> Linux-ha-japan mailing list
>> > >>> Linux****@lists*****
>> > >>> > ---html-part included links-------
>> > mailto:butch****@gmail*****
>> > mailto:matsu****@gmail*****
>> > mailto:Linux****@lists*****
>> >
>> > -------------------------------text/plain-------------------------------
>> > _______________________________________________
>> > Linux-ha-japan mailing list
>> > Linux****@lists*****
>> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>> _______________________________________________
>> Linux-ha-japan mailing list
>> Linux****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>



Linux-ha-japan メーリングリストの案内
Back to archive index