ファイルサーバーに乱雑に溜まったの大容量ファイルの整理方法

2021/03/12

普段から、部屋は散らかっている、弓削田です。同じように、使っているパソコンのデスクトップもファイルがとっちらかっています。更に、自分のデジタルデータを一括保存しているNASのディスク内も、とっちらかりまくりです。まあ、数年、片付けをかまけていたので、仕方がないのですが、たま〜にきれいに掃除をしてあげないといけないですね。とりあえず、ディスクの整理は、バックアップの基本でもあるので、データ整理をしようと思うんですが、数テラバイトという大容量の場合に、ファイルを１つずつ確認するなんてやってると、何時間（下手したら数日）掛かってしまうか、恐ろしい感じなので、とりあえず、簡易に行えるファイル整理方法で、手元でやったものを、備忘録がわりに、ブログに残しておきます。

何故データが肥大化してしまうのか？

そもそもの話ですが、NASやファイルサーバーのデータの置き場所に、bakフォルダや、backupフォルダという名前で、 bak_日付やら、bak_ver1などという、その時にしか理解できないようなフォルダをどんどん作りためていて、中身はほとんど同じようなモノがいくつか存在するのが、うちのファイルサーバーの特徴だ。もちろん、仕事であれば、ちゃんと作業中に定物定位という片付けの鉄則で、保存をするディレクトリをルール化して保存しておけばいいのですが、急ぎ仕事などの場合は、「プロジェクトが終わってからやろう」という思考で、Mfonr color="red">その場フォルダを作ってしまうんですね。あと、HDDが時代とともに大きくなっていく時に、合わせてファイルサーバーの容量も大きくしていくんですが、その時に、古いファイルサーバーのデータをとりあえず、一旦、bakフォルダにコピーしておいて、あとから整理しようという、悪い習慣が積み重なっているようです。

同じフォルダを判断する

基本的に、複数存在するフォルダで、内容が同じものは、削除してもいいという理論で、名前が似ている２つのフォルダを比較して、同じであれば、片方を削除していくという作業を、出来る限りやります。ちなみに、今回は、Linuxサーバーでの作業を行った備忘録になります。

# 2つのフォルダを比較するコマンド
$ diff -rq *フォルダA *フォルダB

こうすることで、もしどちらかにしか存在しないファイルがあるものは、そのリストが表示されます。全く同じであれば、何も表示されずに、コマンドが終了します。とりあえず、削除する側にしか無いファイルを全て、残しておくほうに移動（コピー）して、フォルダは削除してしまいます。この作業、じつは、フィアル容量が大きくなると、レスポンス時間が非常に長くなってしまうので、もっと簡易に判断したい場合は、お互いのフォルダのファイル数のみを比較するという手もあります。ついでに、フォルダの中身を一括にした容量も比較することで、精度は少し上がるかもしれません。

# 任意のフォルダAの中に含まれるファイル一覧
$ find *フォルダAのパス -type f | wc -l

# 任意のフォルダAの中に含まれるディレクトリ一覧
$ find *フォルダAのパス -type d | wc -l

# 任意のフォルダAの内容の一括容量
$ du --max-depth=1 *フォルダAのパス

ついでに、ディレクトリに数も比較してみて、同じであれば、簡易的に、構成は同じと考えてもいいでしょう。もし、違っている場合に、diff比較をして、ファイル移動処理をするというと、確実に削除ができると考えてもいいでしょうね。とにかく、ファイル数が多い場合は、効率的に消せるものを消していけ作戦で、出来る限り、ファイル数を少なくして、その後に整理作業をするというやり方をオススメします。片付けが苦手な、僕と同じタイプの人、お互いに日頃からの整理整頓を心がけましょうね。

ファイルサーバーに乱雑に溜まったの大容量ファイルの整理方法

何故データが肥大化してしまうのか？

同じフォルダを判断する

0 件のコメント:

コメントを投稿

人気の投稿

このブログを検索

ごあいさつ

ブログアーカイブ

ラベル

ファイルサーバーに乱雑に溜まったの大容量ファイルの整理方法

何故データが肥大化してしまうのか？

同じフォルダを判断する

0 件のコメント:

コメントを投稿

人気の投稿

このブログを検索

ごあいさつ

ブログ アーカイブ

ラベル

ブログアーカイブ