平均値・中央値・最頻値
前回までの講座で「データはとりあえず可視化しろ!」という話をした。
そしてデータを図示する方法を知ったら、次はデータを数字で表すことを学ぼう。
ようじゅここでは”データの中心”を表す指標である「平均値」「中央値」「最頻値」を取り扱うことにします
- データの特徴を表す”代表値”にはどんなものがあるのか?
- 平均値は、多くの論文にも載っている一番オーソドックスな値
- 中央値は一番”真ん中”の値、最頻値は一番多くの人がいる値
データの代表値が平均値・中央値・最頻値
名前は知っている人も多いと思うが、データが得られたときに平均値、中央値、最頻値などを求めることが多い。
ようじゅこれらはデータを代表する値なので、”代表値”と呼ばれます
代表値という名前の通り、代表値は適切に使えば「データを一瞬で理解する」のに役立つことも多い。
たとえばオランダ人男性の身長がずらっと記載された紙を渡されるより、”オランダ人の平均身長は184cm”と言われた方が「いや、でっっか!!」と一瞬でリアクションできることも多いだろう。
ようじゅただし、平均値では正しくデータを代表していると言えない場面もあります
そのため、他のデータを代表する値として中央値や最頻値があるのだ。
平均値(Mean)
ようじゅまずはみんな大好き平均値から紹介しましょう
全50名の1RMを合計し人数で割った「平均1RM」は、下記の式で求められる。
$$ \overline{x}=\frac{1}{n}\sum_{i=1}^n \mathrm{1RM}_i $$
いやいや、俺が知らない表記なんですけど???
ようじゅ数学記号のΣを使っているのでややこしく見えますが、これは日常的に使われる”平均”を数学的に書いただけです
$\Sigma$という表記を使っているのでややこしく感じる人もいるかもしれないが、 $\Sigma$という記号は「i=1番目からn番目まで足しますよ」という意味(この章の後に補講があるのでそちらも要チェック)。
つまり、Σというのは「全員分の1RMを足している」だけ。
そしてそれを人数nで割るよ、というのが全体の式の意味。
ようじゅ具体例で考えると、「なんだ、今まで俺が使っていた平均と同じじゃん」となると思います
たとえば50人全員の1RM合計が5000kgなら、人数の50で割って
$$ \overline{x}=\frac{5000}{50}=100\text{kg} $$
つまり平均は100kgとなることがわかる。
これをΣの中身を具体的に書くと、下記のようになる。
$$\bar{x} = \frac{1\text{RM}_1 + 1\text{RM}_2 + 1\text{RM}_3 + 1\text{RM}_4 + 1\text{RM}_5 + 1\text{RM}_6 + 1\text{RM}_7 + 1\text{RM}_8 + 1\text{RM}_9 + 1\text{RM}_{10}}{10}$$
つまり、1番目の被験者の1RMから10番目の被験者の1RMまでを足して、10で割るという操作になる。
いやいや、こんな簡単なら $\Sigma$ なんて使うなよ!ぶっ◯すぞ?
ようじゅその気持ちはわかりますが、後々の講座になってくると $\Sigma$ を使わずに足し算で書く方が面倒な場面にめちゃくちゃ遭遇します。
そしてそのときに導入すると、分散分析などの新しい概念を理解するだけで脳のリソースを食うのに、さらに新しい記号を覚えることになり、無駄に脳をいじめることになる。
なので全員になじみのある”平均値”の回で $\Sigma$ は導入した。
ようじゅあとは自分で統計の本を読みたい!となったときに、Σが出てきて挫折しないようにこの講座でも導入します
ちなみに、これは一般的に”平均”と呼ばれているものだが、厳密には”加法平均”と言われるもの。
他にも相乗平均や調和平均と呼ばれるものもあるが、ここでは使わないのでとりあえず割愛。
今後はとりあえず”平均”といった場合は、”加法平均”を表すことにします。
中央値(Median)
ようじゅこの平均値はなじみ深く計算しやすいというメリットがありますが、極端にでかい値に引きずられやすいというデメリットもあります