ユゲタです。
「Raid」とかけまして、
「女性の化粧」とときます。
そのココロは・・・
鏡(ミラー)が無いと不安になります。
障害はいきなり発生する
同じサーバーを長らく使っていると、色々な事を経験することができる。
最近では、クラウドサーバーしか触ったことが無いというサーバーエンジニアも多いと聞くが、自分がそんなインストールやストレージの管理などを知らないというサーバーエンジニアだったら、
そうしたサーバー障害が発生したら、何もできずに立ちすくんでしまうだろう・・・
とあるシステムのテスト環境を立ち上げようと思い、nodejsのとあるプラグインをインストールすることになり、自宅に設置している押入れサーバーにインストールしてみたところ、
なんかインストールできない・・・
したがって、npmも新しくならない・・・
インストールできない・・・
次に考えたのが、そうした環境を簡単に構築できる、Dockerをインストールしてbuildすればいいじゃないか、という事でDockerをapt-getしてみる・・・
インストールできない・・・
どうやら、これらの原因は、Debianサーバーをapt-getする際に、aptレポジトリがurlエラーを出しているのが原因とみて、"/etc/apt/source.list"の記述で不要な行を排除してみて、"apt-get update"を行ってみた。
このサーバーは、自宅のNASで、HDD8TBを4台搭載して、Raid10で繋げて、16TBほどの容量を確保している大容量ファイルサーバーとして使っていたので、1年以上アップデートをかけていないことを思い出した。
案の定、作業完了まで2時間ぐらいかかってしまった。
※色々なモジュールをインストールしていたのも原因なのだが・・・
とりあえず、アップデートで再起動が必要との事で、行ってみたら、なんか起動に時間がかかる・・・
そして立ち上がったら、なんとRaid10のドライブがマウントされていないことに気がついた!!!
これはやばい、このドライブが死んだら、非常に困る!!!
前にもあった障害は慌てず対応できる
実は、以前にも似たようなことがあったので、同じ対応で問題ないと考え、その時に書いていた備忘録のブログを頼りに慌てず騒がず、作業を進めてみる。
参考 :
mdadmでraid-10を構築していたのにサーバー再起動したら認識しなくなった時の修復方法
でも、どうやら、今回は以前とは様子が違う・・・
$ dmesg | tail
[ 442.904056] usb 2-1: device descriptor read/64, error -110
[ 458.120052] usb 2-1: device descriptor read/64, error -110
[ 458.336052] usb 2-1: new full-speed USB device number 3 using uhci_hcd
[ 473.448054] usb 2-1: device descriptor read/64, error -110
[ 488.664055] usb 2-1: device descriptor read/64, error -110
[ 488.880053] usb 2-1: new full-speed USB device number 4 using uhci_hcd
[ 499.288042] usb 2-1: device not accepting address 4, error -110
[ 499.400056] usb 2-1: new full-speed USB device number 5 using uhci_hcd
[ 509.808032] usb 2-1: device not accepting address 5, error -110
[ 509.808207] usb usb2-port1: unable to enumerate USB device
なんか、md0がない上、再構築しても、すぐに作られず、エラーがでていたので、dmesgコマンドを見てみると、
Raid10ドライブに対して、「error -110」というエラーが出ていることに気がついた。
以前はこのエラーは出ていなかったので、症状が違うという事が認識できた。
ここで一気に血の気が引いた!!!
でも、焦っては負けだ・・・
慌てるな、落ち着け、お前なら出来る・・・
想像外の結末
それから、/etc/fstabをいじったり、色々な方法で個別のドライブをマウントしてみたり、2時間ほど格闘していて、grabコマンドまでいじっていた時のこと、
そもそも、ドライブを外付けUSBでつないでいたRaidボックスのオプションを切り替えてみようと、ついているボタンを色々押してみて設定を変えようとしたんですが、
あまりいじらないほうが懸命であることは本能的に理解できていたので、とりあえず、本体の再起動を行ってみた。
※ただ電源を切って入れ直しただけ・・・
すると、なんということでしょう。
サーバーを再起動してみたら、ドライブが正常に認識されているではありませんか、
どうやら、サーバーのアップデートと再起動で、外付けRaidドライブ自体を再起動するのが正解だったようです。
こんなん、どこのサイトでも説明してくれていないけど、確かにハードウェアのセオリーでもあることを再認識できた。
バックアップ代わりにRaid10にしていたのだが、その環境ごとのバックアップがまた必要なのかもしれないと、
少し無限ループ的な事が頭によぎりました。
今年中に、もう少し管理しやすいNasに切り替えようと心に決めて、今回の作業を無事に終えることにしました。
お疲れ様でした。
0 件のコメント:
コメントを投稿