自由度を情報量として理解する

t検定でプール分散を求めるときに、”自由度”という概念を導入した。

具体的には、プール標準偏差として”自由度による重み付け平均”として解釈した。

ようじゅ

この例もそうですが、統計学では”自由度で割る”という行為をたくさんします。

今回は今後ずっと付き合っていく”自由度”について、超簡単に紹介。

自由度とは？初級編

自由度（df：degree of freedom）はいたるところに出てくるが、今回はその中でも主に「自由度で割る」という行為にフォーカスして解説。

ようじゅ

”自由度”を数学的に理解しようとかなり難しいので、今回は”情報量”というイメージだけにして詳細は後半に学びます

統計学において”自由度で割る”と言う行為が頻発するワケ

実は、統計学では自由度で割るという行為が頻発する。

言い換えるなら、”1自由度あたりの値”を求めることが多い。

ようじゅ

なぜこんなことをするかというと、"自由度1あたりの値”で「正規化」するためです

正規化というのは、英語でいうと"normalization"。

つまり意味としては「基準を作る」「形式を統一する」といった感じになる。

ようじゅ

平均もそうですが、”1人あたりの”などで正規化したほうが比べやすいことが多いです。統計ではそれを”1自由度あたりの”で正規化します

そして”1自由度あたりの”というのは、もう少し馴染み深い言葉で言えば”1情報量あたりの”と言える。

ようじゅ

厳密には”自由に動ける情報の数”ですが、最初は”情報量”くらいの認識でいいと思います

ようじゅ

統計では1情報量（＝自由度）あたりの値”で正規化することによって、違う情報量（＝サンプル数）のデータでも同じように比較することができます

実は「正規化して比べる」というのは、無意識のうちに私たちが日常でもよく行なっていること。