記述統計と代表値・バラツキの尺度

ボディメイクが好きで論文を自分で読みたい...けど統計セクションがわからなすぎて心折れそう

ようじゅ

そんな人のための統計講座。まずは統計学の始まりの話と、初歩的な”得られたデータを可視化する手順”から学ぶことにしましょう

今回の講座で学べること
  • 記述統計は、ただ得られたデータを記述する学問
  • 推測統計は、データの先にある母集団を想像する学問
  • データは平均値より何より可視化。そのための方法の一つとしてヒストグラムがある

統計学には「記述統計学」と「推測統計学」がある

統計学には、「記述統計学」と「推測統計学」の2つがあるとよく言われる。

だが2つの異なる統計学があるわけではなく、根本にある思想が違うだけ。

歴史的には18世紀頃のピエール=シモン・ラプラスの時代に大量のデータを記述する「記述統計学」からはじまり、その後19世紀頃にサンプルからその先にある”母集団”を想像する「推測統計学」が生まれた。

つまり得られたデータを「ただのデータの集まり」と考えるか、「母集団という存在から得られたもの」として扱うか、という根本的な違いがある。

いやいや、母集団ってなんやねん!

ようじゅ

母集団というのは、簡単に言ってしまえば”そのサンプルと同じ性質を持つ(と思われる)集団”のことです。

たとえば日本人男性の平均身長を知りたいときに、そこらへんの10人の身長サンプルから、「日本人男性」というサンプルが所属する”母集団”の平均身長を推測しようとするのが”推測統計”。

一方で、シンプルに5000万人ほどいる日本人男性全員の身長を調べるのが”記述統計学”。

ようじゅ

現在の研究では全数調査なんて馬鹿なことはしないで、「推測統計」を用いるのが主流となっています

しかし、統計学もはじめは「ただデータを集めてその特徴を記述する」というシンプルなものだった。

ということで私たちもこの「データを集めて記述する」ということから始めることにしよう。

コラム:統計学の語源

統計学(statistics)の語源は、"国家や共同体の状態を記述する学問(science dealing with data about the condition of a state or community)"という意味からきている。

つまり、元々は現代でいう国勢調査のような大規模調査で得られたデータをまとめる手段として生まれた。

ようじゅ

なので統計学(statistics)と国家(states)というのは、英語のスペルが非常に似ています

だが現代では、すべての研究が「国家プロジェクト」並みの予算を投じて”全数調査”ができるわけではない。

そこで必要に駆られてサンプルから母集団を想像する”推測統計”と呼ばれるものが生まれた。

裏を返せば、今でも国勢調査のような全数調査を行うのであれば、複雑な推測統計なんて学ぶ必要はないのだ。

記述統計:まずはデータを可視化する

まずこの回では、得られたデータをシンプルに”可視化”する記述統計学の初歩を学ぶ。

記述統計学ではデータをまずは可視化した後、平均分散といったデータの特徴をもとめるということをします。

🔒 ここから先は会員限定です

この記事の続きは有料プラン(Core・Supporter・Patron)への登録で見ることができます。