“ばらつき”の指標:分散・標準偏差
前回の講座ではデータの中心を表す”平均値”とその仲間達を学んだ。
今回は「データがどれだけばらついているか?」を表す「分散」や「標準偏差」という尺度について紹介していく。
ようじゅ第1章では、平均と標準偏差を覚えるのがとりあえずのゴールです
- ばらつきを表す分散ってなに?
- ばらつきを表す標準偏差ってなに?
- 論文で”標準偏差”がよく使われるわけ
分散
結論を言ってしまうと、バラツキの尺度として使われるのが”分散(=Variance)”と呼ばれるもの。
この分散では、どれだけバラついているかの指標として「平均値からのズレ」を使う。
ようじゅ簡単にいってしまえば、「平均値からのズレ」を足し合わせたものが分散です
ちなみにこの平均値からのズレをカッコつけて(?)”偏差”と呼ぶ。
後々出てくる「標準偏差」に使われている”偏差”の正体はコレ。
ようじゅ「標準的に平均からどれくらいずれているか(=偏差)」なので、標準偏差といいます
そして分散と標準偏差には、「標準偏差を二乗したもの=分散」という関係がある。
分散の概念を図にすると下記のようになる。

ばらつきの大きい左のパターンは平均からのズレも大きい一方で、ばらつきの小さい右のパターンは平均からのズレも小さい。
ようじゅ裏を返せば、平均からのズレの足し算によってばらつきが”定量化できる”ことになります。
平均値からのズレを考える
ようじゅここでは「平均値からのズレを考えると自然と分散に行き着く」ということをみてみましょう
ここは簡単に平均1RMが100kgの三人組について考えてみよう。
ばらつきが少ない3人組の例
- 90kg
- 100kg
- 110kg
ここで偏差(平均値との差)を求めると
- -10kg
- ±0kg
- +10kg
ようじゅじゃあこの”偏差”を足し合わせたものをばらつきの指標にしたいものですが、ひとつ大きな欠点があります
それは、この偏差を足し合わせると0になること。
これは平均より大きい値と小さい値の偏差が打ち消しあってしまうために起こる現象。
ここで偏差を足してもプラスとマイナスで打ち消し合わないように、二乗する(つまりその数同士を掛け算する)ということを行う。
ようじゅこうすることで、±の符号が全部プラスになるというミラクル(?)が起きます
たとえば先ほどの例で言うと、偏差の二乗は下記のようになる。
- 100(-10×-10)
- 0(0×0)
- 100(10×10)
プラス×プラスはプラス、マイナス×マイナスはマイナスなので、その数同士をかける二乗をすると符号が消し飛ぶ。
ということでこの”偏差の二乗”を足して、これの平均を取るとだいたい66くらいになる。
$$\frac{200}{3}=66$$
ようじゅこの平均からのズレ(の二乗)の平均が「データがどれだけばらついているのか?」の尺度である分散です
ばらつきが大きい3人組の例
実際に同じ平均値100kgの、別の三人組で考えてみるとわかりやすい。
- 50kg
- 100kg
- 150kg
いわずもがな、この三人組②は先ほどの三人組①よりもデータのばらつきが大きい。
同じ手順で偏差を計算すると
- -50kg
- 0kg
- +50kg
二乗して合計すると500なので、分散は下記のようになる。
$$\frac{500}{3}=166$$
分散は166くらいとなって、先ほどの66よりもだいぶ大きいことがわかる。
ようじゅこのように、「平均からのズレ(の二乗)」の平均を比較することで、データがばらついているかどうかを評価することができます
分散の式
このように分散は、「偏差の二乗和」をサンプル数で割るという単純なもの。
実際に数式にすると下記のようになる。