統計は、難しい。
なんでかというと、たぶんそれは言葉の問題である。
帰無仮説、対立仮説、有意水準だの、
たいした話はしていないのに、やたらと難しいことばを使う。
今日は、まさにその帰無仮説、対立仮説、有意水準のあたりを記しておきたい。
まず、すべての統計の原点である「正規分布」を理解しないといけない。
ひらたく言えば、「正規分布」=無限「二項分布」
もっと平たく言えば、「正規分布」=無限「二項分布」=無限「コインをN回投げた時の表面が1⇒N回出る確率分布」
これだけでも図を見ながらようやく理解できるかもしれない。
次に、すべての分布の特徴は「正規分布」を利用して考えられるということも理解しないといけない。
平たく言えば、たとえ調べたい分布が「正規分布」でない謎の分布Xだとしても、
謎の分布Xの標本平均の分布X’は、「正規分布」になっているという事実を理解しよう。
これを中心極限定理と呼んでいる。
もっと平たく言えば、これは割と直観で理解できるレベルである。
EX)1~10の番号が書かれたボールが入った箱から、ランダムに4個取り出し、その平均を記録する。
箱に戻し、またランダムに4個取り出し、平均を記録する。
これを永遠と繰り返すと、記録している値は、本当の1~10の平均(すなわち5.5)を中心に、
正規分布を描いて記録されることが分かる。
さて、ここまででもだいぶ難解かもしれない。
しかし、参考書で小難しく書かれているよりは、思ったよりも直観的に飲み込める内容だ。
そしてようやく検定の話になる。
検定とは推測統計、すなわち、ある試行実験の結果が母集団に対して滅多にありえない産物なのか、はたまたその母集団からしたら必然の結果なのかを測るものである。
これでも平たく言ったほうだが、もっと平たく言おう。
そのまま流れで、帰無仮説、対立仮説、棄却、有意水準まで話す。
上のEX)での例を使えば、例えば、ランダムに4個取り出したときの平均値を測ってみたら、2.5であったとしよう。「これは必然か偶然か」。聞かれているのは、たったのそれだけだ。
ちなみに、2.5というのは、ランダムに取り出したら(1.2.3.4)だった時、つまり最小値だ。
もちろん、これはあり得るだろう。だが、一番あり得ないともいえる。
なんせ、組み合わせは10C4通りもあるのに、平均2.5になる事象は(1.2.3.4)だけ。
「母平均(1~10の平均)5.5の中からランダムに4つ抽出しました。平均2.5でした!。ランダムなのでたぶん母平均と近いはずです!」と言われたら、どう思うだろうか。
さすがに否定したくなるだろう。そう、この否定を「棄却」と言っている。
ここでの「帰無仮説」は「平均2.5は母平均5.5と同じ(正確には:母平均5.5の母集団からランダムに取り出して平均値求めたら2.5なのは当然に起こる)」ということになる。
こんなん、棄却したいだろ!!!!www
そして、一応書いておくと「対立仮説」は「平均2.5は母平均5.5と同じじゃない(母平均5.5の母集団からランダムに取り出して平均値求めたら2.5だなんてことは滅多にない)」ということになる。
あと説明してないのは有意水準。
これはどこらへんから棄却したいか。ということだ。
例に出したのはさすがに否定(棄却)したいと思う。だって、一番ありえないわけだ。
けど、例えば
「平均2.75でした!ランダムなので母平均(本当は5.5だけど)とみて良いでしょう。」
と言われたらどう思うか。
私なら棄却する。これもほとんど起こらないからだ。
これも平均2.75になるのは、(1.2.3.5)だけだ。
その要領で見ていったときに、良く出てくるのが「平均5.5の母集団から抽出したら、95%の平均値はこの範囲にあるよね」というのを5%有意水準と呼んでいる。
EXの例でいえば平均4~7くらいだろうか。。。(適当)
ま、そういうことである。
だからこそ、逆に言うと、否定はできるんだけど、肯定はできない。
「平均5.9でした!ランダムなので母平均(本当は5.5だけど)とみて良いでしょう。」
といわれたらどうだろう。「まぁ、そうかもね?」と思うに違いない。
しかし「絶対5.9だ!」なんてことにはならないことはみんな共通だろう。
さて、かなり具体的な例で話したが、要はたったのこれだけの話である。
どんくらいあり得ないことかを測っているだけ。どこからあり得ないかっていう基準(有意水準)を決めて、
決めたからには、それ以下だったら「あり得ません」(棄却)と否定して決めつけて、
否定できそうにないなら、「あり得るかもね」といっておく。
それだけの話である。
【書籍の紹介】
今回は、こちらを紹介しよう。
入門としては充分おすすめ。
|
|


