ユゲタです。
「VPS」とかけまして、
「10月末のイベント」と、ときます。
そのココロは・・・
カソウ(仮想と仮装)することで、安心できます。
システム監視は重要
インターネットサービスを運営している人にとって、サーバー障害というのは、
虫歯のようなモノ。
まあまあな頻度で忘れた頃にやって来ます。
先日、自宅でくつろいでいる時に、システム障害を報告していくれるサービスから、障害報告のメールが入りました。
ただ、障害といっても、サーバーが瞬間的に負荷が高くなり、レスポンスタイムが30秒を超えたら発生して、確認するタイミングでは、負荷が解消してるというケースもあるため、ある程度の見極めも必要になります。
とはいえ、こうしたサービス障害を検知する監視システムというのは、必須ですし、これをやっていない運用は、パンツを履かずにズボンを履くようなものでしょう。
想定と違う時に人は焦る
そして、今回の障害は、アクセス時間オーバーと来ていたので、とりあえず、サーバーの再起動をして完了すると思われたのですが、
5分ほど待ってもサーバーが再起動しません・・・
あれ?
こんなはずでは・・・
いつもは、これだけで、スッキリ解消するのに・・・
このサーバーはVPSサーバーなので、遠隔ログインできるバーチャルコンソールを管理パネルに備えられているので、それを使って、サーバーにアクセスしてみたところ、
Linuxの起動画面で、停止している状態でした。
なんという事でしょう。
こんな症状は見たことがない・・・
「An error occurred during ...」
でも、このワードは、たまに見る・・・
どうやら、ファイルシステムに障害が発生して、起動ができない状態になっているとの事らしい。
オーマイガ!!!!!
手元にあるハードウェアであれば、温度チェックをしたり、異音チェックをしたり、いろいろとするのだが、このエラーメッセージのみで対応するのは、いささか酷な感じである。
とりあえずやったこと
サーバー管理会社に連絡をとり、ハードウェアの異常を聞こうと思ったのだが、休日の夜中であったため、高額なお布施契約をしていないと、そんな対応はしてくれず、
サポートにメールだけして、次の日ぐらいに連絡をもらうように送信しておいた。
次に、そのVPSサービスは、自動チャットで、サポート対応をしてくれていたので、AI相手に、障害報告をしてみる。
案の定、キーワードがマッチするだけで、全く関係ないマニュアルページに飛ばされるだけで、一向に解決しそうにない・・・
fsckコマンドで無事解決
エラー画面をよく見てみると、「RUN fsck ...」と書いてあるので、
レスキューモードでのログインを行い、"fsck"とコマンドを打ち込むと、色々なfile systemのチェックが始まった。
色々なチェックの度に、チェックしますか?と聞かれるので、全て"Yes"で返答してみると、知らない間にOSがリブートして、起動画面に切り替わっていた。
そして、通常のログイン画面が表示されたので、監視システムで確認をしてみると、無事にサーバーが起動していたので、今回の障害騒ぎが解決したことを知りました。
ありがとう、「FSCKコマンド」。
次回からは、慌てず、忘れず、メッセージを良く読むことにするよ。
0 件のコメント:
コメントを投稿