記述統計と代表値・バラツキの尺度

ボディメイクが好きで論文を自分で読みたい...けど統計セクションがわからなすぎて心折れそう

ようじゅ

そんな人のための統計講座。まずは統計学の始まりの話と、初歩的な”得られたデータを可視化する手順”から学ぶことにしましょう

今回の講座で学べること

統計学には「記述統計学」と「推測統計学」がある

統計学には、「記述統計学」と「推測統計学」の２つがあるとよく言われる。

だが２つの異なる統計学があるわけではなく、根本にある思想が違うだけ。

歴史的には18世紀頃のピエール＝シモン・ラプラスの時代に大量のデータを記述する「記述統計学」からはじまり、その後19世紀頃にサンプルからその先にある”母集団”を想像する「推測統計学」が生まれた。

つまり得られたデータを「ただのデータの集まり」と考えるか、「母集団という存在から得られたもの」として扱うか、という根本的な違いがある。

いやいや、母集団ってなんやねん！

ようじゅ

母集団というのは、簡単に言ってしまえば”そのサンプルと同じ性質を持つ（と思われる）集団”のことです。

たとえば日本人男性の平均身長を知りたいときに、そこらへんの10人の身長サンプルから、「日本人男性」というサンプルが所属する”母集団”の平均身長を推測しようとするのが”推測統計”。

一方で、シンプルに5000万人ほどいる日本人男性全員の身長を調べるのが”記述統計学”。

ようじゅ

現在の研究では全数調査なんて馬鹿なことはしないで、「推測統計」を用いるのが主流となっています

しかし、統計学もはじめは「ただデータを集めてその特徴を記述する」というシンプルなものだった。

ということで私たちもこの「データを集めて記述する」ということから始めることにしよう。

統計学（statistics）の語源は、"国家や共同体の状態を記述する学問（science dealing with data about the condition of a state or community）"という意味からきている。

つまり、元々は現代でいう国勢調査のような大規模調査で得られたデータをまとめる手段として生まれた。

ようじゅ

なので統計学（statistics）と国家（states）というのは、英語のスペルが非常に似ています

だが現代では、すべての研究が「国家プロジェクト」並みの予算を投じて”全数調査”ができるわけではない。

そこで必要に駆られてサンプルから母集団を想像する”推測統計”と呼ばれるものが生まれた。

裏を返せば、今でも国勢調査のような全数調査を行うのであれば、複雑な推測統計なんて学ぶ必要はないのだ。

まずこの回では、得られたデータをシンプルに”可視化”する記述統計学の初歩を学ぶ。

記述統計学ではデータをまずは可視化した後、平均や分散といったデータの特徴をもとめるということをします。