投稿

1月, 2020の投稿を表示しています

1月11日のサービス停止についてのご報告

いつもご利用ありがとうございます。Feedeen運営者の伊藤です。

1月11日未明から13時にわたり、障害によるサービス停止が発生しました。多くの皆様にご不便をおかけしてしまい、たいへん申し訳ございません。以下に経緯と対策についてご報告させていただきます。

障害の経緯 1月11日未明(おそらく午前1時を少し経過した頃)にデータベースサーバーのOSに強制再起動がかかり、データベースのプログラムが停止してしまいました。これによりデータベースに依存しているプログラムが動作しなくなり、サービスのほぼ全体がご利用いただけない状態となりました。

また、この運営者がこの障害に気づくことなく就寝してしまったため、長時間障害が続くことになってしまいました。長時間の障害はいつもこれが原因で恐縮なのですが、忘れた頃に突然発生するのでなんとも対処しづらく...申し訳ございません。

同日13時過ぎ、ようやくですが運営者が障害に気づき、データベースを起動する作業を行い、ひとまずサービスを再開しました。その後、念のため各プログラムの再起動と動作確認を行い、15時過ぎにサービスの復帰作業を終了しました。

障害の原因 障害の原因について、現時点で判明していることをご報告します。

まずはデータベースサーバーのOSが再起動した点ですが、これはAWS(Feedeenで使用しているクラウドサービス)側からの事前通知なく発生したため、正確な原因はつかめておりません。おそらく、突発的なハードウェア障害などによるものと考えられます。また、この強制再起動が障害の切っ掛けではあるものの、再起動後はOSが正常に動作しており、実はデータベースを起動すればすぐにサービスが復帰できる状態でした。

障害が長期化した原因は、OS起動後にデータベースプログラムを起動する作業が自動化されておらず、運営者が手作業で行う必要があった点です。これは、以下の理由によります。
障害発生後に状態確認せずにデータベースプログラムを起動してしまうと、場合によってはデータ喪失などさらなる状況の悪化を招いてしまうことがある。AWSにおいて意図しないOS再起動がかかるような状況では、再起動後にサーバーが正常動作する可能性は低いと考えていた。実際に過去のデータベース障害では、停止したサーバーを復帰させることはできなかった。 しかし、今回実際に自動化されてい…

1月4日(土)午前1:00 〜 3:00 メンテナンスのためサービスを停止します

新年明けましておめでとうございます。運営者の伊藤です。

旧年中のご愛顧まことにありがとうございます。本年もFeedeenは地道に改善を続けて参りますので、なにとぞよろしくお願い申し上げます。

さて、新年早々でたいへん恐縮なのですが、DBの残り容量が切迫してきたため、下記時間帯にサービスを停止してのメンテナンスを実施させていただきます。

メンテナンス期間 : 1月4日(土) 午前1:00〜3:00

メンテナンス内容 : DBサーバーのディスク容量の拡張DBサーバーの交換
準備の都合上、直前になってからの告知でたいへん申し訳ございません。メンテナンス期間中はすべてのサービスが利用できませんので、あらかじめご了承のほど、お願い申し上げます。