統計データを扱う時に、基準にする値を平均値だけで考えてしまうと、とんでもなく現状値違った判定をしてしまう場合があるので、中央値という値を思考してみるといいでしょう。
企業のマーケティングデータをその後の商品戦略に活かして使用するのはセオリーですが、どのように使うかは企業毎にルールもやり方も違ってきます。
そうした時に、何かあれば平均値だけを参照している担当者がいたら、中央値や偏差値、分布表などを知っておくだけで、データ解析作業が楽しくもなりますよ。
実データを用いた「平均値」と「中央値」の違いと考え方
「会社の平均給与額」というデータは上場会社の各種報告書で出している企業も多いと思いますが、大手企業であれば、「平均ボーナス額」や、「平均年齢」など、自分の手取りや、年齢などが、かなり乖離していると気がつく従業員も多いと思います。
平均と書いているので、平均値をだしているだけなのですが、そこに感じる違和感は、じぶんは 社歴も長いはずだし、課長クラスの役職がついているのに、平均給与額が自分よりもはるかに多いという事に憤りを感じるかもしれません。
それは恐らく中央値を出したほうがいいパターンなのかもしれませんね。
簡単な給与サンプルを用いて説明してみましょう。
社長 : 150万円
取締役 : 100万円
部長 : 60万円
課長 : 40万円
一般社員 : 20万円
これに該当する人数は下のようになります。
社長 : 1人
取締役 : 4人
部長 : 8名
課長 : 10名
一般社員 : 30名
合計 : 53名
平均値は全てのデータ軍の総計から、データ件数を割った数なので、給与サンプルの平均値は・・・
38,3019円(少数切り捨て)
エクセルに記入すると以下のようになります。
中央値は、数値の大きい順(小さい順でも良い)から順番に並べ直してちょうど中間にくるデータの値なので、社員の半数以上をしめる一般社員の値になります。
200,000円
これを見た時に、平均値と中央値が倍近く差が出ていることが分かりますが、どちらの値を基準にするかで、見た目も判定も大きく変わってしまうことは言うまでもないでしょう。
パレートの法則に振り回されるな!!
一般的に平均値は多くの参考になる値なのですが、データ群に偏りがある場合に、平均値を取ってしまうと、結果も偏りが生まれてしまうという事ですが、
それをよく見かけるのが「パレートの法則」です。または「働きアリの法則」とも言われ、組織の利益の8割は2割の人が生み出しているというのが色々なケースで当てはまると言われ、正比例にはならない統計データが多いという法則であるということも同時に分かります。
ただ、だからといって中央値のみが有効というわけではなく、80:20の法則が理解できているが、その平均値を参照する場合もあります。
できることなら平均値と中央値は、同時に出して、何にたいして分析をするのかという検討材料にするのがいいのでしょうね。
英語で理解
平均値は「Average value」
中央値は「Mediam」
どちらも馴染みのある単語なので、違和感はありませんが、ちなみに統計解析でよく出てくる値の英訳は以下のとおりです。
偏差値「Deviation value」
最頻値「Mode」
正解の無い統計解析という作業をやっている人なら理解できていると思いますが、同じデータでも、切り口が変われば、解析結果が大きく変わってしまいます。
見方をいろんな角度から行うという為の、値の出し方がわかれば、基本的な統計値は素人でも出しやすいのではないでしょうか?
データサイエンティストって、企業で採用するとかなり高額な投資になるので、まずは自分でできるところから・・・
0 件のコメント:
コメントを投稿