母集団を計算可能な数学モデルにする「確率分布と正規分布、中心極限定理」

前回までで母集団の平均と標準偏差を求める方法を学んだ。

ようじゅ

今回は、母集団を表すときに使われる”確率分布”と呼ばれるものを紹介して、その中でも特に重要な”正規分布”と呼ばれるものを紹介します

検定では母集団の”確率分布”を想像することが必要

なぜ”確率分布”なんてものが必要かというと、一言で言ってしまえば「母集団という架空の存在を、数学的にモデル化しないと計算ができない」から。

ようじゅ

超ざっくり言えば、母集団という想像上の産物に計算可能な実体を与えるのが”確率分布”と呼ばれるものです。

確率は「確率分布の面積」で定義することができる

”確率分布”と呼ばれるものを導入するメリットは、確率を「確率分布の面積」で定義することができるようになること。

たとえば日本人男性の筋トレ1RMの確率分布が、下記のオレンジ線に従うと仮定すると、1RMが75~80kgである確率は赤色で塗られた面積になる。

この場合、赤で塗られた面積は0.6827になる。これはすなわち、75kg-85kgである確率が68.27%であることを表している。

ようじゅ

この面積の計算では”積分”と呼ばれる数学的手法を使いますが、この段階ではまだ紹介しません。

今の段階では、とりあえず確率というのが「確率分布を仮定して、その面積で表される」ということだけ知っておけばOK。

ようじゅ

このように現象を「こういう確率分布に従うだろう」と仮定することではじめて、確率を数学的に計算できるようにすることができます

確率分布にはいくつか種類があるが、ここでは代表的な確率分布である”正規分布”と呼ばれる分布を紹介しよう。

正規分布 $N(\mu,\sigma^2)$

確率分布の中でも正規分布というのは、「中心に近いデータが多く、その中心から左右対称に値が散らばっているもの」をモデル化したもの。

たとえば身長がいい例で、例えば男性であれば身長はだいたい平均170cm付近、女性であればだいたい平均160cm付近に多くの人が位置していて、そこより背が高い人も低い人も同数いると思われる。

ようじゅ

このように、平均に属する人が一番多く、その平均より高い人も低い人も同じ数いると思われる場合は”正規分布”でモデル化することができます。

この正規分布というのはなだらかな山のような形で、どんな山なのかは平均と標準偏差によって決まる

正規分布が平均と標準偏差で変わる様子
  • 平均の役割:山の中心位置を決める
  • 標準偏差の役割:山のなだらかさを決める

まず平均だが、その山の中心点を決める役割を担っている。

例えば上のグラフでは、赤だけが平均0ではなく、右側に偏っている。

そして標準偏差は、山のなだらかさを決める。

標準偏差が小さい緑の山は尖った山であり、標準偏差が大きい黄色の山はなだらかな山になっている。

ようじゅ

このように平均と標準偏差によって山の形は変わりますが、中心が一番多く、その左右に裾野が広がっているような山のような形が正規分布です

ちなみに正規分布は平均と標準偏差で形が決まるので、正規分布(Normal distribution)のNに、カッコで平均( $\mu$)と標準偏差($\sigma^2$)を使って、$N(\mu,\sigma^2)$と表されます。

正規分布の性質=標準偏差で確率がわかる

ようじゅ

この正規分布ですが、非常に重要な性質があります

それは、±1標準偏差に入る確率や±2標準偏差に入る確率が、山の形に関わらず同じということ。

🔒 ここから先は会員限定です

この記事の続きは有料プラン(Core・Supporter・Patron)への登録で見ることができます。