Re: hinemosのCPU監視について (Hinemos-mailing-list 226) - Hinemos

gamiです。

同等の事象を把握しているため、共有させて頂きます。
（このあと、バグトラックのほうにも登録しておきます。）

原因は、Hinemosで使用しているNet-SNMPの下記の不具合のためだと思われます。

http://lists.alioth.debian.org/pipermail/pkg-net-snmp-devel/2006-August/0000
13.html

CPUアイドルのカウント値が unsigned int の上限である4294967295に
張り付いて動かなくなります。

前回ポーリング時と今回のポーリング時でアイドルタイムの増分が0になり、
すなわちCPUを100%使った。との計算結果になってしまいます。

問題となるOID：ssCpuRawIdleの値の単位は、10ミリ秒。
4294967295 ミリ秒 ＝ 497.10 日

起動後497.10日経てば発生してしまいます。
問題は、CPUのコア数分だけCPUカウンタの値は増分される
という点。
コアが２つ（マルチスレッディングも）の場合は、
248.55日
コアが８つの場合は、
62.14日
となります。

本事象と同一事象が否かの判定方法：
問題のOIDの値は下記で取得できます。
# snmpget -c public -v 2c <ip address> .1.3.6.1.4.1.2021.11.53.0

その結果が、
UCD-SNMP-MIB::ssCpuRawIdle.0 = Counter32: 4294967295
であれば、本事象となります。

ただ、ノードを再起動されたようですので、確認は困難かもしれません。

> -----Original Message-----
> From: hinem****@lists*****
> [mailto:hinem****@lists*****] On Behalf Of
> Tomoya Sutou
> Sent: Wednesday, February 06, 2008 9:28 AM
> To: hinem****@lists*****
> Subject: [Hinemos-mailing-list 224]hinemosのCPU監視について
> 
> sutoと申します。
> 
> 使用hinemosのバージョン
> hinemos2.3.0
> 
> サーバの情報
> ハードウェア
> DELL　DL360G5
> OSのバージョン
> Linux 2.6.9-67.0.1.ELsmp
> 
> hinemosについて一点質問がございます。
> 
> hinemosのCPU監視は
> SNMPポーリングによりMIB値を取得しているとの
> 認識でよいのでしょうか？
> 
> サーバにて、CPU使用率100％超えの
> アラートがhinemosより通知されましたが、
> 対象のサーバ上で確認した所、特に問題はありません。
> 
> 確認方法
> ＊＊＊＊topコマンド＊＊＊＊＊
> 
> top - 17:10:10 up 94 days, 30 min, 9 users, load average: 0.04, 0.09, 0.04
> Tasks: 151 total, 2 running, 145 sleeping, 0 stopped, 4 zombie
> 
> Cpu(s): 0.0% us, 0.0% sy, 0.0% ni, 100.0% id, 0.0% wa, 0.0% hi, 0.0% si
> Mem: 2073308k total, 2048392k used, 24916k free, 145232k buffers
> Swap: 2031608k total, 14840k used, 2016768k free, 1330820k cached
> 
> 
> ＊＊＊＊sarコマンド（sar -P ALL 1 1）＊＊＊＊
> 
> ※デュアルコアですが、二つともidle状態が100%となっています。
> 
> 17時15分14秒 CPU %user %nice %system %iowait %idle
> 17時15分15秒 all 0.00 0.00 0.00 0.00 100.00
> 17時15分15秒 0 0.00 0.00 0.00 0.00 100.00
> 17時15分15秒 1 0.00 0.00 0.00 0.00 100.00
> 
> しかし、hinemosの性能[リアルタイムグラフ]で確認した所
> CPU監視のCPU使用率スコープ代表値が１００％超えていました。
> 
> hinemos_agent, hinemo_managerの再起動を行いましたが
> 解決せず、対象のサーバーを再起動する事により正常となりました。
> 問題のサーバのアップタイムが252日経過していましたが、
> 同様のアップタイムのサーバが存在していますが、そのサーバは正常でした。
> hinemosに問題があるとは考え難いのですが、
> 障害切り分けの為に情報が欲しいと考えます。
> 
> よろしくお願いします。
> 
> _______________________________________________
> Hinemos-mailing-list mailing list
> Hinem****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/hinemos-mailing-list

Hinemos

[Hinemos-mailing-list 226] Re: hinemosのCPU監視について