[Trouble] 恒例の「サーバー壊れました祭り」がやってまいりました!

2021年8月1日

テクノロジー

eyecatch 自宅でサーバーというペットを飼っている、ユゲタです。 こいつが非常にカワイイやつで、24時間常に動き回っていて、真夏にはファンから熱風をボクに向けて放出してきます。 カワイイですね! ボクの所持するデータをイッテに取り込んでくれて、もはやコイツがいないと生きていけません。 このサーバー君、名前をdebian(デビアン)と言って、今でこそメジャーになったUbuntuの親にあたるんですよね。 たま〜に、朝起きると、調子が悪くてうまく動いていないことがあるんだけど、そんな時は、朝のルーティーンを全て取りやめて、 復旧作業をしなければいけないんですが、それが丸一日かかってしまうことも何度かありました。

それは突然やってくる

今朝も、なんだかサーバーがうまく動いていないので、いつものように、電源長押で強制再起動して、無事に元通り・・・というふうに行きませんでした・・・ あれ? なんかいつもと違う。 しかも、今月に入って2回目!!! 今日は2021年7月、ちょうどオリンピックが始まったタイミング(ブログ掲載は8/1だけど) このサーバーの設定コンフィグファイルのタイムスタンプが、2015年って書いてあるんで、もう6年も使っている事がわかる。 そのサーバー君が、無事に立ち上がっているのに、ネットアクセスができない。 キーボードと、モニタを繋いでみると、ちゃんとOSにはログインができるし、 ターミナルコマンドは普通に動く。 一体なにが起きているのだ???

こんな時どうする?

サーバーを扱う仕事をしている人でベテランの人であれば、ある程度の見通しがつくのですが、初心者の人などは、こんな時テンパってしまいます。 とりあえず、ボクのこんな時、どうするパターンを紹介してみますね。

最初に確認する3つのポイント

まず、調子の悪い原因を特定しないと、直しようがないので、どこが調子が悪いのかをまず、推測します。 ココは経験値がモノを言うんですが、実際のサーバー機器が目の前にある場合と、ない場合(AWSなどの仮想サーバーなどの場合も含めて)のどちらかで、 やり方が違ってくるのですが、今回は、自宅のサーバー君なので、実機パターンでお送りします。 推測をするために、重要なのが、
1. 機器の状態を目で確認 2. 耳で異音がしていないかを確認 3. 周辺機器の調子を確認
という事前確認は必須で、ここでほぼ原因が特定できることはあるんですが、今回は、この3つのどれも問題がないという事が認識できました。

ログの確認

今回はサーバーがネットワークに繋がっていないような症状なので、ログデータをみて、エラーが出ていないかを確認します。 そのまえに、とりあえず、以下を実行 $ ping google.com これで、通信ができていない事象を再確認 そして、ログの確認は、2つ $ tail -n 50 /var/log/syslog $ dmesg この2つである程度のことはわかりますが、ログの内容を読み解くスキルを持っていないと、何が問題かはわからないと思います。 事前にどういうログが吐かれているか、エラーの時にどういうログが出力されるかを認識しておくといいでしょう。 dmesgは、ネットワーク不調のときにまずみたほうが良い、サーバー機器のデバイス状態のメッセージを記録してくれるログになるのですが、 ボリュームが多いので、これのなかから今回は、nicカードのメッセージのみを絞り込みたいと思います。 $ dmesg | grep eth0 今回はここで、"link down"という文字があったので、どうやらnicが立ち上がったあと(link up)、downしていて、nic機器の不調で有ることがわかります。 いわゆる、機器障害ってやつですね。 6年間毎日休まず働いてくれたこのサーバー君も、定年の時を迎えるときが来たようです。 このサーバー君は、ベアボーン機器で、マザーボードからnicカードまで、全てが一体型になっているので、nicカードだけ交換することができないんですね。 そもそも、32bitマシンだったので、8GB以上のドライブ認識ができなかったので、潮時も感じていたので、ちょうど良かったのかもしれません。 というわけで、次回は、新たなサーバー君の誕生をお届けしたいと思います。 お楽しみに!

人気の投稿

このブログを検索

ごあいさつ

このWebサイトは、独自思考で我が道を行くユゲタの少し尖った思考のTechブログです。 毎日興味がどんどん切り替わるので、テーマはマルチになっています。 もしかしたらアイデアに困っている人の助けになるかもしれません。

ブログ アーカイブ