2016/01/17

GMOの障害から学ぶこと

当社複数サービスサイトの表示不可等の事象について - GMOインターネット株式会社

まずは早急に障害報告と復旧お疲れ様でした。
前代未聞の障害等と言って煽っているブログなどもありますが、対岸の火事と思わずに今回の障害とこれからについてちょっとだけ考えてみました。


何が起きたのか?
■発生時刻:
 2016年1月16日 14:15頃~1月17日 14:25
■事象:
・本件の対象サービスのWEBサイトが表示されない
・対象サービスの各種Navi、コントロールパネルにログインできない
・一部のお客様でメールが受信できない
対象サービスのWebサイトや管理画面にアクセスできなかったようです。
今回障害を受けたサービスを私自身利用していたわけではないので、実際にレンタルサーバや仮想サーバがどんな影響を受けたのか分かりませんが、障害レポートに記載がないということは稼働中のサービスには影響がなかったと考えられます。

この文面だけを見れば「メールサービス以外はWebサイト/管理画面にアクセスできなかった」ということのようです。


原因は?
■原因:
 データセンター内における電源設備の一部故障
14サービスが列挙されていますが、障害原因箇所が単一なので基幹システムあたりに影響が出たんじゃないかと推測します。

電源設備の切り替えなど迅速な対応ですでに復旧済みのようです。


さて、今回の件でAWSへの移行は進むか?

Twitterなどを眺めていると今回の障害を契機にAWSへ移行するというような声を目にする。AWSなら落ちないとか、そもそもこんな障害が発生しないとか。。。


レンタルサーバでできることをAWSに自力で構築するのって、相当に敷居が高いと思います。レンタルサーバに限らず国内の仮想サーバを選んだのには何かしら理由があるはずで、それを乗り越えてでもAWSに移行できるのかということを考える必要があるのではないか考えます。

結局今回で障害を受けた人がいたとしたら、その人は「なぜそんなにGMOを信用していたのか」と自問しなければなりません。AWSのSLAはそれぞれ別のAZで冗長構成を構成していた場合に両方が使えなくなった場合という条件がついています。GMOは1台のサーバからSLAの対象のようです。

ただ移行しようと思った時に検討材料というか構築手順というかノウハウがインターネットに大量にあることがAWSの最大の強みでしょう。たとえAWSを使っていてもシングルポイントを作ってしまえば今回のような自体に陥ることはありますが、その時に備えた構築手順も何らかの形で用意されているのは利用者としてはありがたい限りです。

情報(冗長構成の構築や運用手順)を持つものが勝者となるのであれば、その勝者を作るための情報を出すものが選ばれる時代なのかなぁと、今回のGMOの障害で考えた次第であります。