oogam****@nttda*****
oogam****@nttda*****
2008年 2月 6日 (水) 10:00:15 JST
gamiです。 同等の事象を把握しているため、共有させて頂きます。 (このあと、バグトラックのほうにも登録しておきます。) 原因は、Hinemosで使用しているNet-SNMPの下記の不具合のためだと思われます。 http://lists.alioth.debian.org/pipermail/pkg-net-snmp-devel/2006-August/0000 13.html CPUアイドルのカウント値が unsigned int の上限である4294967295に 張り付いて動かなくなります。 前回ポーリング時と今回のポーリング時でアイドルタイムの増分が0になり、 すなわちCPUを100%使った。との計算結果になってしまいます。 問題となるOID:ssCpuRawIdleの値の単位は、10ミリ秒。 4294967295 ミリ秒 = 497.10 日 起動後497.10日経てば発生してしまいます。 問題は、CPUのコア数分だけCPUカウンタの値は増分される という点。 コアが2つ(マルチスレッディングも)の場合は、 248.55日 コアが8つの場合は、 62.14日 となります。 本事象と同一事象が否かの判定方法: 問題のOIDの値は下記で取得できます。 # snmpget -c public -v 2c <ip address> .1.3.6.1.4.1.2021.11.53.0 その結果が、 UCD-SNMP-MIB::ssCpuRawIdle.0 = Counter32: 4294967295 であれば、本事象となります。 ただ、ノードを再起動されたようですので、確認は困難かもしれません。 > -----Original Message----- > From: hinem****@lists***** > [mailto:hinem****@lists*****] On Behalf Of > Tomoya Sutou > Sent: Wednesday, February 06, 2008 9:28 AM > To: hinem****@lists***** > Subject: [Hinemos-mailing-list 224]hinemosのCPU監視について > > sutoと申します。 > > 使用hinemosのバージョン > hinemos2.3.0 > > サーバの情報 > ハードウェア > DELL DL360G5 > OSのバージョン > Linux 2.6.9-67.0.1.ELsmp > > hinemosについて一点質問がございます。 > > hinemosのCPU監視は > SNMPポーリングによりMIB値を取得しているとの > 認識でよいのでしょうか? > > サーバにて、CPU使用率100%超えの > アラートがhinemosより通知されましたが、 > 対象のサーバ上で確認した所、特に問題はありません。 > > 確認方法 > ****topコマンド***** > > top - 17:10:10 up 94 days, 30 min, 9 users, load average: 0.04, 0.09, 0.04 > Tasks: 151 total, 2 running, 145 sleeping, 0 stopped, 4 zombie > > Cpu(s): 0.0% us, 0.0% sy, 0.0% ni, 100.0% id, 0.0% wa, 0.0% hi, 0.0% si > Mem: 2073308k total, 2048392k used, 24916k free, 145232k buffers > Swap: 2031608k total, 14840k used, 2016768k free, 1330820k cached > > > ****sarコマンド(sar -P ALL 1 1)**** > > ※デュアルコアですが、二つともidle状態が100%となっています。 > > 17時15分14秒 CPU %user %nice %system %iowait %idle > 17時15分15秒 all 0.00 0.00 0.00 0.00 100.00 > 17時15分15秒 0 0.00 0.00 0.00 0.00 100.00 > 17時15分15秒 1 0.00 0.00 0.00 0.00 100.00 > > しかし、hinemosの性能[リアルタイムグラフ]で確認した所 > CPU監視のCPU使用率スコープ代表値が100%超えていました。 > > hinemos_agent, hinemo_managerの再起動を行いましたが > 解決せず、対象のサーバーを再起動する事により正常となりました。 > 問題のサーバのアップタイムが252日経過していましたが、 > 同様のアップタイムのサーバが存在していますが、そのサーバは正常でした。 > hinemosに問題があるとは考え難いのですが、 > 障害切り分けの為に情報が欲しいと考えます。 > > よろしくお願いします。 > > _______________________________________________ > Hinemos-mailing-list mailing list > Hinem****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/hinemos-mailing-list