2009年07月20日 システムの監視

By | 2009年12月15日

システムの可用性を向上させる方法として、監視があります。
障害を早期検知する仕組みを導入する事で、可用性向上を目指します。

一般的な監視項目
1.CPU,Memory,ディスク使用率監視
2.サービス監視・Ping監視
3.ログ監視
4.Apache,Tomcat,DBへの接続数監視

通知方法
1.電話
2.メール

企業の監視では、アラートをモニターで監視している専用の監視担当者がいて、
アラートを検出したら登録されている連絡先に電話するというのは一般的だと思います。

[障害発生時の対応フロー]
1.障害アラート出力。
2.監視担当者がアラート確認。
3.監視担当者が当該アラートの連絡先(障害担当者)に電話
4.障害担当者が障害対応開始

この監視体制を構築・維持するのってとても大変そう。
モニター、PC、監視室、24H体制の監視担当者と。

個人的には上記のような監視は自動化できるのではと考えています。
障害担当者は電話で掛かってきても、詳細はメール・実機で確認するので、
障害担当者からの電話は、こういうと語弊があるかもしれないですが、”目覚まし”と同じ効果です。
#監視担当者が電話をしてくれるお陰で、不必要に障害担当者に連絡がいかず助かっている事に感謝しています。

それなら携帯にメールする仕組みを構築すれば監視体制分の稼動が浮きます。
「携帯にメール=目覚まし」となる前提ですが。(メール受信時の音量・再生時間を長くする等の工夫が必要)
難点は、連絡先全員にメールが送付される点とサービスレベル低下でしょうか。
連絡先(障害担当者)が5人いたとしたら、その全員にメールが送信されるのは稼動があがりそう。
監視担当者は連絡先(障害担当者)に繋がるまで根気良く連絡くれるので、それに比べたらサービスレベル低下でしょうか。

あるいは自動で10callくらい電話を掛ける機器があれば、それも”目覚まし”的な役割になりそう。
電話が繋がれば次には掛けない。10callしても電話が繋がらない場合は次の人に電話するような。
しかしこの仕組みは少し高くつきそうですね。