ボディメイクが好きで論文を自分で読みたい...けど統計セクションがわからなすぎて心折れそう
ようじゅ
そんな人のための統計講座。まずは統計学の始まりの話と、初歩的な”得られたデータを可視化する手順”から学ぶことにしましょう
今回の講座で学べること
- 記述統計は、ただ得られたデータを記述する学問
- 推測統計は、データの先にある母集団を想像する学問
- データは平均値より何より可視化。そのための方法の一つとしてヒストグラムがある
統計学には「記述統計学」と「推測統計学」がある
統計学には、「記述統計学」と「推測統計学」の2つがあるとよく言われる。
だが2つの異なる統計学があるわけではなく、根本にある思想が違うだけ。
歴史的には18世紀頃のピエール=シモン・ラプラスの時代に大量のデータを記述する「記述統計学」からはじまり、その後19世紀頃にサンプルからその先にある”母集団”を想像する「推測統計学」が生まれた。
つまり得られたデータを「ただのデータの集まり」と考えるか、「母集団という存在から得られたもの」として扱うか、という根本的な違いがある。
ようじゅ
母集団というのは、簡単に言ってしまえば”そのサンプルと同じ性質を持つ(と思われる)集団”のことです。
たとえば日本人男性の平均身長を知りたいときに、そこらへんの10人の身長サンプルから、「日本人男性」というサンプルが所属する”母集団”の平均身長を推測しようとするのが”推測統計”。
一方で、シンプルに5000万人ほどいる日本人男性全員の身長を調べるのが”記述統計学”。
ようじゅ
現在の研究では全数調査なんて馬鹿なことはしないで、「推測統計」を用いるのが主流となっています
しかし、統計学もはじめは「ただデータを集めてその特徴を記述する」というシンプルなものだった。
ということで私たちもこの「データを集めて記述する」ということから始めることにしよう。
コラム:統計学の語源
統計学(statistics)の語源は、"国家や共同体の状態を記述する学問(science dealing with data about the condition of a state or community)"という意味からきている。
つまり、元々は現代でいう国勢調査のような大規模調査で得られたデータをまとめる手段として生まれた。
ようじゅ
なので統計学(statistics)と国家(states)というのは、英語のスペルが非常に似ています
だが現代では、すべての研究が「国家プロジェクト」並みの予算を投じて”全数調査”ができるわけではない。
そこで必要に駆られてサンプルから母集団を想像する”推測統計”と呼ばれるものが生まれた。
裏を返せば、今でも国勢調査のような全数調査を行うのであれば、複雑な推測統計なんて学ぶ必要はないのだ。
記述統計:まずはデータを可視化する
まずこの回では、得られたデータをシンプルに”可視化”する記述統計学の初歩を学ぶ。
記述統計学ではデータをまずは可視化した後、平均や分散といったデータの特徴をもとめるということをします。