前回は、平均値や中央値について述べていました、そして最後に”正規分布”や”標準偏差”、”四分位範囲”という言葉を使っていました。

この言葉を聞くと多くのかたが難しい顔をされますし、”統計離れ”しだす最初の障壁ではないでしょうか?
なぜ、この”正規分布”や”標準偏差”、”四分位範囲”といった言葉を見るのか?というと、

答えはズバリ、

データのばらつきを示すため

です。

平均値や中央値はあくまでも、ある群の代表となる値でしかありません。
そのため、実際の対象データがどのように分布していたのか、わからなくなってしまいます。
”標準偏差”や”四分位範囲”を示すことで、実際の対象データがどのように分布していたのか、ばらつきが大きかったのか、小さかったのか、などデータを見る人に伝えることができるというメリットがあります。

そして、対象データの全データを分かりやすくまとめたものが、正規分布です。
正規分布とは、データの分布が平均値を頂点とした左右対称の山形で表示されます。

対象データが正規分布に従っていれば、
平均値±標準偏差の範囲に対象データの約68%が含まれている
平均値±標準偏差×2の範囲に対象データの約95%が含まれている
という特徴があります。

つまり、標準偏差がわかることで、対象データの約95%がどの範囲で分布していたのかわかるのです。

例えば、ある集団の身長を調査したとしましょう。
身長の平均値が175cm、標準偏差が6だったとします。
すると、以下のような正規分布を描くことができます。

この図に標準偏差などを表すと、

このようになります。

では、”四分位範囲”はどのような場面で使うのかというと、分布が正規分布でなかったに用います。

正規分布でない分布とは、以下のような分布をいいます。

このような分布は、多くの生体データで当てはまることが多く、私たちの馴染みのあるものとして、CRPなどがあります。
そして、このような分布をしている場合、”中央値”と”四分位範囲”を使用します。

四分位範囲とは、データを小さい順に並べた際の25〜75%までの値で示される範囲のことです。
正規分布のように95%のデータとはいきませんが、50%(=75%-25%)のデータがどのように分布していたのか、中央値や四分位範囲で知ることができます。

以上が、平均値・中央値・標準偏差・四分位範囲についてでした。
標準偏差や四分位範囲だけでデータを見る人に、データの分布を伝えることができるというメリットは、わざわざ全データを表やグラフで示すよりもとても分かりやすいですね。

Follow me!