8月25日のフィード取得障害について
いつも Feedeen のご利用ありがとうございます。運営者の伊藤です。
8月25日に発生したフィード取得の障害では、皆様に多大なご不便をおかけしてしまい、たいへん申し訳ありませんでした。発生した障害と対応の内容、今後の対策などについて、以下に説明させていただきます。
8月25日の午前10時頃(日本時間)、フィード取得などを行うサーバー(以下、バックエンドサーバー)で障害が発生し、新たなフィードアイテムの取得とOPMLのインポート機能などが停止または利用できない状態となりました。
その際、運営者の不注意にて障害の通知メールを見逃してしまい、長時間に渡って停止状態が続くこととなってしまいました。この点は今回の障害の最大の反省点であり、対策を講じていきたいと考えております。たいへん申し訳ありませんでした。
その後、夕方頃より障害に気づかれた方々からご報告をいただき、運営者も障害を認識することができました。そして復旧作業の後、およそ19時頃にフィードアイテムの取得を再開しました。
以上が障害発生から復旧までの主な経緯です。
障害の直接的な原因は、バックエンドサーバーの仮想マシンがなんらかの理由で停止したことです。クラウドサービス(AWS EC2)であるため停止の詳細な理由は不明ですが、ハードウェアレベルの障害が発生した模様です。
既に再起動やシャットダウン等の操作も受け付けない状態となっていたため、代替のバックエンドサーバーを新たに構築し、差し替えることで対処いたしました。
前述のとおり、せっかくの障害通知メールを運営者が見逃したことで、本来ならば速やかに復旧できた障害を、長時間に渡り放置することとなってしまいました。
見逃しの原因として最も致命的だったのは、通知メールを日常的に利用するメールアカウントで受け取っており、雑多なメールに紛れた状態だったことです。とくに現在はクローラなどの改修作業を行っている都合上、軽微な警告ログも念のためメール通知しており、事態がより悪化しておりました。
このような見逃しの対策として、サービス断に繋がるような重要なイベントは通常のメールとは別の手段(作業マシンでのデスクトップ通知やiPhoneのダイアログ通知など)で監視する環境を構築しました。個人で運営しておりますので24時間体制の監視は不可能ですが、今回のように無為に障害を長引かせることは避けられると考えております。
加えて、今回のようなハードウェア障害に対処できるものではありませんが、アプリケーションレベルの障害については自動復旧するような仕組みの実装も進めております。コストや工数などさまざまな制約がございますが、可能なものから対策を講じてまいります。
最後になりましたが、今回の障害についてご報告くださった皆様、まことにありがとうございます。皆様のご助力により、より早く復旧作業に着手することができました。心より御礼申し上げます。
また、今回の障害で影響を受けた皆様に、あらためてお詫び申し上げます。今後とも Feedeen をよろしくお願いいたします。
8月25日に発生したフィード取得の障害では、皆様に多大なご不便をおかけしてしまい、たいへん申し訳ありませんでした。発生した障害と対応の内容、今後の対策などについて、以下に説明させていただきます。
障害の経緯
8月25日の午前10時頃(日本時間)、フィード取得などを行うサーバー(以下、バックエンドサーバー)で障害が発生し、新たなフィードアイテムの取得とOPMLのインポート機能などが停止または利用できない状態となりました。
その際、運営者の不注意にて障害の通知メールを見逃してしまい、長時間に渡って停止状態が続くこととなってしまいました。この点は今回の障害の最大の反省点であり、対策を講じていきたいと考えております。たいへん申し訳ありませんでした。
その後、夕方頃より障害に気づかれた方々からご報告をいただき、運営者も障害を認識することができました。そして復旧作業の後、およそ19時頃にフィードアイテムの取得を再開しました。
以上が障害発生から復旧までの主な経緯です。
障害の原因と対応内容
障害の直接的な原因は、バックエンドサーバーの仮想マシンがなんらかの理由で停止したことです。クラウドサービス(AWS EC2)であるため停止の詳細な理由は不明ですが、ハードウェアレベルの障害が発生した模様です。
既に再起動やシャットダウン等の操作も受け付けない状態となっていたため、代替のバックエンドサーバーを新たに構築し、差し替えることで対処いたしました。
今後の対策
前述のとおり、せっかくの障害通知メールを運営者が見逃したことで、本来ならば速やかに復旧できた障害を、長時間に渡り放置することとなってしまいました。
見逃しの原因として最も致命的だったのは、通知メールを日常的に利用するメールアカウントで受け取っており、雑多なメールに紛れた状態だったことです。とくに現在はクローラなどの改修作業を行っている都合上、軽微な警告ログも念のためメール通知しており、事態がより悪化しておりました。
このような見逃しの対策として、サービス断に繋がるような重要なイベントは通常のメールとは別の手段(作業マシンでのデスクトップ通知やiPhoneのダイアログ通知など)で監視する環境を構築しました。個人で運営しておりますので24時間体制の監視は不可能ですが、今回のように無為に障害を長引かせることは避けられると考えております。
加えて、今回のようなハードウェア障害に対処できるものではありませんが、アプリケーションレベルの障害については自動復旧するような仕組みの実装も進めております。コストや工数などさまざまな制約がございますが、可能なものから対策を講じてまいります。
最後になりましたが、今回の障害についてご報告くださった皆様、まことにありがとうございます。皆様のご助力により、より早く復旧作業に着手することができました。心より御礼申し上げます。
また、今回の障害で影響を受けた皆様に、あらためてお詫び申し上げます。今後とも Feedeen をよろしくお願いいたします。
コメント
コメントを投稿