2011年06月17日 Yahooトップにアクセスできない障害発生

By | 2011年6月17日

2011/6/17 1時頃から約1時間弱、Yahooトップにアクセスできない障害が発生。
いろいろ推測してみた。

状況としては、

 ・DNSは引けていた。(nslookup でyahoo.co.jpの正引きOK)
 ・pingは応答する。(ping yahoo.co.jp OK)
 ・画面は真っ白で、応答が返ってこない。
 ・SYNを送っているけど、SYN+ACKが返って来ていない(https://twitter.com/#!/geekpage)



以上より、自宅からYahooのファイアーウォールまでは問題なく疎通できていたはず。
さらに、応答画面が真っ白だった事から、YahooのFW内側のNW周りで何か障害が起こったのかな。
もしWEBサーバやDB・ストレージ周りで障害が起こったらロードバランサの死活監視で検知して
sorryページが表示されていただろうし。

この時間の障害ってことは、アクセス増というよりHW故障や深夜作業が原因とか。。。



Ping応答しているFWが正常だとすると、怪しいのはロードバランサ、L3SW、L2SWか。
YahooレベルだとNW機器も冗長化しているだろうし、運悪くフェイルオーバーに失敗したか、
L2ループが起こったとかかな。

約1時間で復旧ということは、障害検知に10分程度はかかるとすれば、
復旧に数十分掛かった事になる。単純なフェイルバックにしては時間が掛かった印象があるし、
冗長化したNW全てにHW障害が発生したとしたら復旧が早すぎる。

ってことはL2ループかなー。
個人的にはL2ループに何度も苦しめられた経験が。。。
一度ループが起こると、機器にログインできなくなったり状況把握も困難になるから大変なんだよな。。。



とにかくYahooのインフラエンジニアの皆様、ご対応お疲れ様でした。。。