2010年04月07日 とりあえず再起動

By | 2010年4月7日

インフラ運用をしていて、再起動の偉大さをよく実感します。

何かシステム的な問題が起こった時、何が原因なのかを考えます。
何がトリガーとなったのか考えます。問題を切り分けていきます。

ある程度原因(どの機器が悪いか)を特定できたら、
再起動の出番となることが多いです。
プロセスの再起動。サーバの再起動。フェールオーバーしてから再起動と
種類はいろいろありますが。

問題解決能力が非常に高い再起動。
どれだけ柔軟に再起動を実施できるか。
この時間帯は再起動してOK的な運用ルールにするとか、
がそのシステムの問題解決能力につながるような気がします。