-オープンソースのSNSエンジン OpenPNEプロジェクト-

今回のサーバ障害のまとめ

04 / 01 水曜日 2009

今回のサーバ障害の経緯をまとめました。

【障害原因】
3/26(木)OpenPNEプロジェクト関連サイトをホスティングしているAmazon EC2の該当サーバにディスク障害が発生し、仮想サーバがハングアップした。EC2サポート担当によるデータの復旧作業にも失敗し、サーバのデータは失われた。別サーバに保存しているサイトのバックアップデータも、設定ミスにより正しく保存できていないため、OpenPNEプロジェクトサイトの一部データが、完全に失われた。

【障害内容】
OpenPNEプロジェクトに関連するサーバの障害状況
・3/26~3/30までのOpenPNE公式サイト()、OpenPNE公式SNS(http://sns.openpne.jp)の一部停止
・OpenPNE公式サイトのブログデータ2週間分消失
・OpenPNE公式SNSのユーザー情報、書き込み情報2ヶ月分消失

【今後の対策】
今回の障害の直接原因はサーバのディスク障害であるが、バックアップデータが正しく保存されていないことが、データの消失を招き、障害を拡大させた原因である。今後のサーバ運営にあたっては、下記のバックアップ対策を強化し、貴重なサーバデータの保全に努める。

・サーバWEBファイルの定期的(日次)バックアップ
・サーバDBデータの外部サーバへのリアルタイム複製
・サーバDBデータの定期的(日次)バックアップ

※OpenPNEホスティングminiプラン(http://mini.openpne.jp)、マンションプラン、占有サーバプランなどの商用サービスは別サーバ、別体系で運用しているため、障害は発生していません。

コメント

  1. fukasawa2009/04/02 05:15
    該当サーバというのは、どういうスペックのサーバを使っていて、なぜ障害が起こって、データのバックアップはどのようにしていて、どういう設定ミスをしたのか、明らかにしていただけませんか?
  2. Mamoru Tejima2009/04/07 11:38
    http://aws.amazon.com/ec2/instance-types/
    Small Instance (default)*

    1.7 GB memory
    1 EC2 Compute Unit (1 virtual core with 1 EC2 Compute Unit)
    160 GB instance storage (150 GB plus 10 GB root partition)
    32-bit platform
    I/O Performance: Moderate
    Price: $0.10 per instance hour

    なぜ起こったかは不明です。サポートはディスク障害だと言っていました。

    バックアップの取り方
    ・深夜にmysqldumpコマンドによるデイリーバックアップ三世代を同一サーバに保管
    ・バックアップデータをrsyncでバックアップサーバに毎日転送

    どういう設定ミスをしたのか?
    ・EC2のインスタンス(VPS)のデータの保全性が低いことを詳しく調べていなかった
    ・データベースのパスワード変更を行っていたが、バックアップスクリプト側に設定を反映していなかった
    ・そのため、デイリーバックアップ、バックアップ側サーバのデータ共に、保存できない状況がおき三日分のバックアップデータすべてが利用できなくなった。

    というところです。

ページの先頭に戻る