vpsサーバーがいきなりダウンして焦った話

2020年3月26日

テクノロジー

ユゲタです。 「VPS」とかけまして、 「10月末のイベント」と、ときます。 そのココロは・・・ カソウ(仮想と仮装)することで、安心できます。

システム監視は重要

インターネットサービスを運営している人にとって、サーバー障害というのは、 虫歯のようなモノ。 まあまあな頻度で忘れた頃にやって来ます。 先日、自宅でくつろいでいる時に、システム障害を報告していくれるサービスから、障害報告のメールが入りました。 ただ、障害といっても、サーバーが瞬間的に負荷が高くなり、レスポンスタイムが30秒を超えたら発生して、確認するタイミングでは、負荷が解消してるというケースもあるため、ある程度の見極めも必要になります。 とはいえ、こうしたサービス障害を検知する監視システムというのは、必須ですし、これをやっていない運用は、パンツを履かずにズボンを履くようなものでしょう。

想定と違う時に人は焦る

そして、今回の障害は、アクセス時間オーバーと来ていたので、とりあえず、サーバーの再起動をして完了すると思われたのですが、 5分ほど待ってもサーバーが再起動しません・・・ あれ? こんなはずでは・・・ いつもは、これだけで、スッキリ解消するのに・・・ このサーバーはVPSサーバーなので、遠隔ログインできるバーチャルコンソールを管理パネルに備えられているので、それを使って、サーバーにアクセスしてみたところ、 Linuxの起動画面で、停止している状態でした。 なんという事でしょう。 こんな症状は見たことがない・・・ 「An error occurred during ...」 でも、このワードは、たまに見る・・・ どうやら、ファイルシステムに障害が発生して、起動ができない状態になっているとの事らしい。 オーマイガ!!!!! 手元にあるハードウェアであれば、温度チェックをしたり、異音チェックをしたり、いろいろとするのだが、このエラーメッセージのみで対応するのは、いささか酷な感じである。

とりあえずやったこと

サーバー管理会社に連絡をとり、ハードウェアの異常を聞こうと思ったのだが、休日の夜中であったため、高額なお布施契約をしていないと、そんな対応はしてくれず、 サポートにメールだけして、次の日ぐらいに連絡をもらうように送信しておいた。 次に、そのVPSサービスは、自動チャットで、サポート対応をしてくれていたので、AI相手に、障害報告をしてみる。 案の定、キーワードがマッチするだけで、全く関係ないマニュアルページに飛ばされるだけで、一向に解決しそうにない・・・

fsckコマンドで無事解決

エラー画面をよく見てみると、「RUN fsck ...」と書いてあるので、 レスキューモードでのログインを行い、"fsck"とコマンドを打ち込むと、色々なfile systemのチェックが始まった。 色々なチェックの度に、チェックしますか?と聞かれるので、全て"Yes"で返答してみると、知らない間にOSがリブートして、起動画面に切り替わっていた。 そして、通常のログイン画面が表示されたので、監視システムで確認をしてみると、無事にサーバーが起動していたので、今回の障害騒ぎが解決したことを知りました。 ありがとう、「FSCKコマンド」。 次回からは、慌てず、忘れず、メッセージを良く読むことにするよ。

このブログを検索

ごあいさつ

このWebサイトは、独自思考で我が道を行くユゲタの少し尖った思考のTechブログです。 毎日興味がどんどん切り替わるので、テーマはマルチになっています。 もしかしたらアイデアに困っている人の助けになるかもしれません。