連載講座「0から学ぶ確率統計」では、中学数学の基本的な内容から大学レベルの確率統計を解説しています。
統計やデータサイエンスに興味がある方はぜひご覧ください。
第13章では、「正規分布を用いた検定」について解説します。
仮説検定の具体的な例題を解いていきましょう。
初学者も理解しやすいように丁寧に解説しているので、ぜひ最後までご覧ください。
必要な知識は「区間推定」と「仮説検定」で解説しているので、まだ学習していない方は先にそちらの記事をご覧ください。
本連載講座「0から始める確率・統計講座」では、中学・高校レベルの数学から大学レベルの「確率・統計」を解説しています。
確率・統計を始めて学ぶ方が理解できるよう、丁寧に解説しています。
この講座の内容は「統計検定2級レベルの知識を習得すること」を目標としています。
・中学、高校の数学の内容を覚えてないけど
「確率・統計」を学習したい
・統計検定の対策をしたい
このような考えを持っている方は、Tech Teacherが運営する「0から始める確率・統計講座」を用いて、「確率・統計」の学習をすすめましょう。
<目次>
1章:平均・分散などの基本統計量
2章:相関関係
3章:確率の基本
4章:条件付き確率・ベイズの定理
5章:期待値
6章:代表的な確率分布
7章:母集団と標本
8章:標本平均・不偏分散
9章:中心極限定理
10章:母平均の推定(分散既知)
11章:母平均の推定(分散未知)
12章:仮説検定
13章:正規分布を用いた検定
14章:【t検定】母平均を検定
15章:【F検定】分散に差があるか?
16章:ウェルチの検定
17章:カイ2乗検定
18章:分散分析
19章:回帰分析
母分散が既知の場合の区間推定
まず、母分散が既知の場合の区間推定について復習しましょう。
詳しくは以下の記事で解説しているため、不安がある方は合わせてご覧ください。
母平均の区間推定(母分散が既知)
母平均u、母分散\(\sigma^{\scriptsize 2}\)の正規母集団に対する信頼度mの信頼区間は
$$
\bar{X} – k\times \frac{\sigma}{\sqrt{n}} \leq u \leq \bar{X} + k\times \frac{\sigma}{\sqrt{n}}
$$
で得られる。
kは「分散1、平均0の標準正規分布」の両側100(1-m)%点である。
(95%の場合:1.96)
仮説検定
次に「仮説検定の手順」を復習しましょう。
仮説検定の理解に不安がある方はぜひ下記の記事をご覧ください。
仮説検定は、「母集団についての仮説を標本に基づいて検証すること」です。
例えば、「このコインは歪んでおらず、表と裏の出る確率が等しいか?」といったことを標本データと確率の計算に基づいて検証します。
仮説検定は以下の手順で進めます。
仮説検定の手順
- 帰無仮説\(H_0\)、対立仮説\(H_1\)を設定する
- 帰無仮説\(H_0\)を真として、統計量の分布を求める
- 有意水準を決める
- 有意水準と統計量の分布から、棄却域を設定する
- 標本から得られた結果が確率的に起こり得るなら、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却
- 標本から得られた結果が確率的に起こり得ないなら、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択
「帰無仮説を真とする」気持ちは
帰無仮説は間違っていると思うけど、その仮説を一旦認めて計算してみるね
→(帰無仮説を棄却し)やっぱり対立仮説が正しかったね
という展開を狙っています。
『Tech Teacher』3つの魅力
魅力1. オーダーメイドのカリキュラム
『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。
魅力2. 担当教師によるマンツーマン指導
Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。
魅力3. 3,960円/30分で必要な分だけ受講
Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。
まとめ
・魅力1. 担当教師によるマンツーマン指導
・魅力2. オーダーメイドのカリキュラム
・魅力3. 3,960円/30分で必要な分だけ受講
質問のみのお問い合わせも受け付けております。
正規分布を用いた母平均の検定
では実際に、母平均の検定をやってみましょう。
問題
ある中学校で1年生「44名」に集団式知能検査を実施したところ、偏差値の平均は「52」であった。
この学校の1年生は平均的な生徒といえるか。
ただし、全国における知能検査の偏差値は「母平均:50」「母分散:\( {\scriptsize 10}^{\scriptsize 2}\)」の正規分布に従うことが知られている。
なお、有意水準「α = 0.05」とする。
引用:Lecture 9 母平均の検定 (一部改題)
「仮説検定の手順」に従って、進めていきます。
①:帰無仮説\(H_0\)、対立仮説\(H_1\)を設定する
全国における知能検査の偏差値の平均は通常「50」であるのに対し、当該学校の1年生の平均偏差値は「52.7」となっています。
このことから、「この学校の生徒の知能検査の結果は全国平均よりやや離れている」と推測されます。
すなわち、「この学校の1年生は平均的な生徒と言えない」が証明したい仮説となります。
したがって、当該学校の知能検査の偏差値の母平均をuとすると、
- 帰無仮説\(H_0\):u = 50
- 対立仮説\(H_1\):u ≠ 50
と設定します。
帰無仮説と対立仮説の設定から、今回は「両側検定」を行います。
②:帰無仮説\(H_0\)を真として、統計量の分布を求める
帰無仮説を真とするため、
$$ u = 50 $$
の元で進めていきます。
「全国知能検査の標本平均\(\bar{X}\)は、正規分布に従う」とみなすことができます。
③:有意水準を決める
今回は問題文で、有意水準αが
$$ \alpha = 0.05 $$
と定められています。
実際の業務や研究で行う場合は、データ数や状況に応じて適切に設定しましょう。
④:有意水準と統計量の分布から、棄却域を設定する
今回は両側5%検定を行うため、上側2.5%点と下側2.5%を求めます。
母分散が既知であるため、正規分布を用いて推定できますね。
計算サイトや正規分布表を用いて、正規分布の上側2.5%点を調べると
$$ k = 1.96 $$
と分かります。
標本平均\(\bar{X}\)の分布は、「平均:50」、「分散:\(\frac{10^2}{44} \simeq 1.51^2
\)」の正規分布であるため、棄却域は
$$
u \leq 50 \, – 1.96 \times 1.51\quad 50 + 1.96 \times 1.51\leq u
$$
計算すると
$$ u \leq 47.0 \quad 53.0 \leq u$$
となります。(小数第二位を四捨五入)
⑤:標本から得られた結果が確率的に起こり得るなら、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却
⑥:標本から得られた結果が確率的に起こり得ないなら、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択
標本データより、当該学校の平均偏差値の実現値は「52.7」です。
これが、棄却域
$$ u \leq 47.0 \quad 53.0 \leq u$$
外にあるため、「標本から得られた結果が確率的に起こり得る」と解釈できます。
したがって、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却します。
すなわち、「この学校の1年生は平均的な生徒でないとは言えない」という結論が得られました。
練習問題
問題
ある中学校で1年生「44名」に集団式知能検査を実施したところ、偏差値の平均は「52.7」であった。
この学校の1年生は全国平均よりも知能検査の偏差値が高いと言えるか?
ただし、全国における知能検査の偏差値は「母平均:50」「母分散:\({\scriptsize 10}^{\scriptsize 2}\)」の正規分布に従うことが知られている。
なお、有意水準「α = 0.05」とする。
引用:Lecture 9 母平均の検定 (一部改題)
ほとんど同じ問題ですが、「この学校の1年生は全国平均よりも知能検査の偏差値が高いと言えるか?」と主張したい内容が変わることで仮説検定がどのように変化するか確認しましょう。
①:帰無仮説\(H_0\)、対立仮説\(H_1\)を設定する
証明したい仮説が「この学校の1年生は全国平均よりも知能検査の偏差値が高いと言えるか?」なので
- 帰無仮説\(H_0\):u = 50
- 対立仮説\(H_1\):u > 50
と設定します。
帰無仮説と対立仮説の設定から、今回は「片側検定」を行います。
③:有意水準を決める
今回は問題文で、有意水準αが
$$ \alpha = 0.05 $$
と定められています。
④:有意水準と統計量の分布から、棄却域を設定する
今回は両側5%検定を行うため、上側5%点を求めます。
先ほどの問題と同様、母分散が既知であるため、正規分布を用いて推定できます。
計算サイトや正規分布表を用いると、上側5%の「kの値」は
$$ k = 1.64 $$
と分かります。
標本平均\(\bar{X}\)の分布は、「平均:50」、「分散:\(\frac{10^2}{44} \simeq 1.51^2
\)」の正規分布であるため、棄却域は
$$
50 + 1.64 \times 1.51 \leq u
$$
計算すると
$$ 52.5 \leq u$$
となります。
⑤:標本から得られた結果が確率的に起こり得るなら、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却
⑥:標本から得られた結果が確率的に起こり得ないなら、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択
標本データより、当該学校の平均偏差値の実現値は「52.7」です。
これが、棄却域
$$ 52.5 \leq u$$
内にあるため、「標本から得られた結果が確率的に起こり得ない」と解釈できます。
したがって、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択します。
すなわち、「この学校の1年生は全国平均よりも知能検査の偏差値が高い」という結論が得られました。
上記の2つの問題の結論から分かるように、「両側検定」と「片側検定」の選択によって、異なった結論が得られる場合があります。
今回の問題の場合では、
- 両側検定:
「この学校の1年生は平均的な生徒でないとは言えない」 - 片側検定:
「この学校の1年生は全国平均よりも知能検査の偏差値が高い」
という結論が得られました。