「母集団とはなにか?」-記述統計から推測統計へ
第1章では「平均」や「分散」という概念を紹介した。
これらの指標があることによって、A国とB国はどっちが金を持っているかだとか、国民の所得にはどっちのほうが差があるだとかを考えることができるようになる。
ここからは一歩進んで、その集団の平均や分散を求める記述統計から、その先の母集団というものを想像する推測統計に入っていこう。
- 記述統計と推測統計の違い
- 推測統計で出てくる”母集団”の正体
- ばらつきを表す”分散”の式が2つある理由
ようじゅ研究で使われている推測統計...ここでは”母集団”という抽象的な概念が登場するために挫折しがち。まずはこの母集団について学んでおきましょう
母集団とは想像上の存在である。
ここで母集団とは何かというと、そのサンプルが属すると思われる集団である。
例えば日本人男性10人を対象にベンチプレス1RMを計測したとしよう。
このとき、推測統計では日本人男性全体から10人のサンプルを取ったと考える。
そしてこの10人分のサンプルから、日本人男性全体のベンチプレス1RMを推測しようというのが推測統計でやりたいこと。
ようじゅちなみにこの解釈はわかりやすく説明するためのものであり、厳密には間違っています
なぜなら母集団というのは”想像上の産物”であり、現実には存在しないものだからだ。
つまり日本人男性のベンチプレス1RMにおける母集団とは、日本人男性として生じうる個体すべて…それは過去も未来も含めた日本人男性全体という仮想の集団を想像している。
なにやらややこしいが、このことは統計学で多くの偉業を成し遂げたR.A.フィッシャーの1925年の論文「Theory of Statistical Estimation」に記述がある。
無限仮説母集団(infinite hypothetical population)という概念は、数学的確率を含むあらゆる言明において、暗黙のうちに前提とされているものだと私は考えている。 例えば、メンデルの遺伝実験において「ある交配から生まれたマウスが白くなる確率は 1/2 である」と言うとき、我々はそのマウスを「その交配から生じ得た無限のマウスの集団」の一員として捉えなければならない。
この集団は、必ず「無限」でなければならない。
なぜなら、有限の集団からサンプリングを行う場合、1匹が白であったという事実が、次に生まれる個体が白である確率に影響を及ぼしてしまうからだ。しかし、それは我々が検討したい仮説ではない。
さらに言えば、確率は常に有理数(分数で表せる数)になるとは限らないという点でも、無限性は必要とされる。
無限である以上、その集団は明らかに「仮想的」なものである。
現実に親から生まれる個体数は有限であるし、確率は親の年齢や栄養状態に左右される可能性も考えられるからだ。しかし、我々は実験の諸条件――すなわち「同年齢の似たような親から、同一の環境下で生まれる」という条件――を固定し、そこから無制限に個体が生産される様子を想定することができる。
この想像上の集団における「白いマウスの割合」こそが、我々が確率として述べていることの正体(=実際の意味)に他ならない。端的に言えば、仮想母集団とは、我々が研究対象としている諸条件を概念的に帰結させたものなのである。確率は、他の統計的パラメータと同様に、その集団が持つ数値的な特性の一つなのである。
つまりフィッシャーが言いたいのは、例えば20歳くらいの日本人男性のベンチプレス1RMを測定したとしたら、母集団とはその「20歳くらいの日本人男性」という条件を固定した場合に考えられる無限の個体を考えるということ。
それは今10歳で将来20歳になるだろう日本人男性も含まれるし、未来に生まれて20歳になるだろう日本人男性も含まれる。
実質的にその母集団というのは”無限”の存在であり、現実には無限の集団というのは存在しないから、この母集団は”仮想的”な存在だというのだ。
ようじゅ推測統計と記述統計の一番の違いは、この無限仮説母集団にあります。推測統計ではこの無限仮説母集団を考えるので、急に難易度が上がります
記述統計と推測統計で分散の式が異なる
ようじゅそして個人的には、一般の教科書でも記述統計と推測統計の考えがきちんと説明されず、ごちゃごちゃになっているのが分かりづらさの原因になっていると思います