統計量
と呼ばれるもの。以下、例- z-statistic
- t-statistic
は不偏分散(nが多くない時に使うやつ)
p-値?
これは帰無仮説

「俺の友達の身長の平均は190cmだ」という帰無仮説有意水準と比べるという意味を可視化してみると次の通り。を立てる。実際に友達の身長を聞いて集めまくる。z-testをするとする。よってz-statisticを用いる。z=2だったとします。p-valueを計算すると0.0455だった。有意水準を5%とすると。
より
は棄却され、190cmではないと言える。一方、有意水準を1%とすると。
より
は採択され、平均が190cmではないとは言えない。




母集団の平均に対する検定
がテーマです。先に言っちゃうとstudent-T-testをやろうと思います。しかし、まずは馴染みのあるガウス分布を使ったz-testから触れていきましょう。中心極限定理を覚えていますか?
どんな母集団でも平均中心極限定理と標準化を使ってz-test(z-検定)をするときは統計量(statistic)はz-statistic(z-valueともいう)で・分散
のとき、十分多く(
)の標本を取れば
つまり、「データが超多かったら正規分布使えるで」ってことです。




母集団の分散とかわからんやん!
そうです。母集団の分散がわかってなかったらこのz-testはできないんです。というか実世界で母集団の分散が分かっている状況なんてあるんだろうか、、、諦めない!まだ方法はある
スチューデント t 検定
母集団の分散がわからんから代わりに不偏分散(nが多くない時に使うやつ)を使いましょう。これをつかって同様に標準化する!すると自由度の
分布に従う
(nはサンプルサイズ)
あいつと俺の間にモテ具合の差があるのか?
次の図をみてください。



え、なら?
ウェルチ検定
この時は
なんでこの検定でわかるんだ
という問には答えられません。ガウスさんたちに聞くしかないです。他にもあるお店にお客が来る時間間隔は指数分布に従うなどといいますが理由はわかりません。事故回数で有名なポアソン分布も同じ。 今回の内容は統計検定、もしくはアクチュアリーちっくなものになりました。用語がたくさんあって混乱する範囲のようですがワンステップづつ確認しましょう。重要なのは中心極限定理です。他にも独立性のカイ二乗検定などあるので調べてみてください。 でわ。 READMORE