連載講座「0から学ぶ確率統計」では、中学数学の基本的な内容から大学レベルの確率統計を解説しています。
統計やデータサイエンスに興味がある方はぜひご覧ください。
第16章では、「ウェルチの検定」について解説します。
初学者も理解しやすいように丁寧に解説しているので、ぜひ最後までご覧ください。
本記事で解説する内容は、仮説検定の1種なので、仮説検定の手順や内容に不安がある方は先に下記の記事をご覧ください。
本連載講座「0から始める確率・統計講座」では、中学・高校レベルの数学から大学レベルの「確率・統計」を解説しています。
確率・統計を始めて学ぶ方が理解できるよう、丁寧に解説しています。
この講座の内容は「統計検定2級レベルの知識を習得すること」を目標としています。
・中学、高校の数学の内容を覚えてないけど
「確率・統計」を学習したい
・統計検定の対策をしたい
このような考えを持っている方は、Tech Teacherが運営する「0から始める確率・統計講座」を用いて、「確率・統計」の学習をすすめましょう。
<目次>
1章:平均・分散などの基本統計量
2章:相関関係
3章:確率の基本
4章:条件付き確率・ベイズの定理
5章:期待値
6章:代表的な確率分布
7章:母集団と標本
8章:標本平均・不偏分散
9章:中心極限定理
10章:母平均の推定(分散既知)
11章:母平均の推定(分散未知)
12章:仮説検定
13章:正規分布を用いた検定
14章:【t検定】母平均を検定
15章:【F検定】分散に差があるか?
16章:ウェルチの検定
17章:カイ2乗検定
18章:分散分析
19章:回帰分析
『Tech Teacher』3つの魅力
魅力1. オーダーメイドのカリキュラム
『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。
魅力2. 担当教師によるマンツーマン指導
Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。
魅力3. 3,960円/30分で必要な分だけ受講
Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。
まとめ
・魅力1. 担当教師によるマンツーマン指導
・魅力2. オーダーメイドのカリキュラム
・魅力3. 3,960円/30分で必要な分だけ受講
質問のみのお問い合わせも受け付けております。
2標本T検定
前章までで学習した「正規分布を用いた検定」と「t検定」は、ある一つの集団の母平均が目標値と等しいかを調べる検定でした。
例えば、「ある中学校の知能検査の偏差値は50であるか」というような問題を取り扱いました。
すなわち、
- 帰無仮説\(H_0\):u = 50
- 対立仮説\(H_1\):u ≠ 50
という風に、帰無仮説・対立仮説を設定していました。
詳しい内容は下記の記事からご覧ください。
一方で今回学習する「2標本t検定」では、二つの正規母集団に「母平均の差があるか」を検定します。
すなわち、帰無仮説と対立仮説は以下の様に設定します。
- 帰無仮説\(H_0\):\(u_1 = u_2\)
- 対立仮説\(H_1\):\(u_1 \neq u_2\)(両側検定の場合)
2標本t検定の具体例として
- 薬を投与する前と投与した後での血圧の平均値を比較する
- 2つのクラス間でテストの平均値を比較する
といったものがあります。
2標本T検定(母分散が等しい場合)
まず、二つの正規母集団AとBの母分散が等しい場合の2標本t検定のやり方について解説します。
正規母集団Aからは大きさmの標本を、正規母集団Bからは大きさnの標本を抽出したとします。
また、正規母集団Aの不偏分散を\({U_A}^2\)、正規母集団Bの不偏分散を\({U_B}^2\)と表します。
まず、2つの標本の不偏分散を1つにまとめた不偏分散\({U_p}^2\)を定義します。
\({U_p}^2\)は、\({U_A}^2\)と\({U_B}^2\)を用いて、
$$ {U_p}^2 = \frac{(m – 1){U_A}^2 + (n – 1){U_B}^2}{m + n – 2} $$
と算出します。
母分散が等しい場合の2標本t検定は、以下の定理を利用して検定を行います。
二つの正規母集団AとBの母平均と母分散が等しい場合
$$ T = \frac{\bar{X} – \bar{Y}}{{U_p}^2\sqrt{(\frac{1}{m} + \frac{1}{n})}} $$
で表せる2標本統計量Tは、自由度(m + n – 2)のt分布に従います。
\({U_p}^2\)を用いらず、Tを表すと
$$ T = \frac{\bar{X} – \bar{Y}}{\frac{(m – 1){U_A}^2 + (n – 1){U_B}^2}{m + n – 2} \sqrt{(\frac{1}{m} + \frac{1}{n})} } $$
となります。
t分布・t検定については、以下の記事で詳しく解説しているので合わせてご覧ください。
では、実際に2標本T検定を行ってみましょう。
例題
以下の仮説検定の手順に従って進めていきます。
仮説検定の手順
- 帰無仮説\(H_0\)、対立仮説\(H_1\)を設定する
- 帰無仮説\(H_0\)を真として、統計量の分布を求める
- 有意水準を決める
- 有意水準と統計量の分布から、棄却域を設定する
- 標本から得られた結果が確率的に起こり得るなら、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却
- 標本から得られた結果が確率的に起こり得ないなら、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択
なお、A組の母平均を\(u_A\)、母分散を\( {\sigma_A}^2\)、B組の母平均を\({U_B}^2\)、母分散を\( {\sigma_B}^2\)とします。
①:帰無仮説\(H_0\)、対立仮説\(H_1\)を設定する
「A組とB組の間で得点に有意な差があるか」を調べるので、
- 帰無仮説\(H_0\):\(u_A\) = \(u_B\)
- 対立仮説\(H_1\):\(u_A\) ≠ \(u_B\)
と設定します。
帰無仮説と対立仮説の設定から、今回は「両側検定」を行います。
②:帰無仮説\(H_0\)を真として、統計量の分布を求める
帰無仮説を真とするため、
$$ u_A = u_B $$
の元で進めていきます。
また、等分散を仮定しているため
$$ {\sigma_A}^2 = {\sigma_B}^2 $$
が成り立ちます。
したがって
$$ T = \frac{\bar{X} – \bar{Y}}{{U_p}^2\sqrt{(\frac{1}{m} + \frac{1}{n})}} $$
で表せる2標本統計量Tは、自由度(m + n – 2)のt分布に従います。
③:有意水準を決める
今回は問題文で、有意水準αが
$$ \alpha = 0.05 $$
と定められています。
実際の業務や研究で行う場合は、データ数や状況に応じて適切に設定しましょう
④:有意水準と統計量の分布から、棄却域を設定する
今回は両側5%検定を行うため、上側2.5%点\(p_+\)と下側2.5%\(p_-\)を求めます。
A組、B組ともに標本のデータ数が「9」なので、自由度「\(9 + 9 – 2 = 16\)」のt分布を利用します。
計算サイトやt分布表を用いると、
$$ p_+ = 2.12 \quad p_- = \, – 2.12 $$
と分かります。
よって、2標本統計量Tの棄却域は
$$ T \leq 2.12 \quad 2.12 \leq T $$
となります。
⑤:標本から得られた結果が確率的に起こり得るなら、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却
⑥:標本から得られた結果が確率的に起こり得ないなら、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択
T統計量の実現値tを求めます。
A組の得点の標本平均\(\bar{X_A}\)は
$$
\begin{align*}
\bar{X_A} &= \frac{65 + 70 + \dots + 76 + 95}{9} \\
&= 76
\end{align*}
$$
B組の得点の標本平均\(\bar{X_B}\)は
$$
\begin{align*}
\bar{X_B} &= \frac{61 + 72 + \dots + 94 + 83}{9} \\
&= 79
\end{align*}
$$
と算出できます。
また、A組の得点の不偏分散\({U_A}^2\)は
$$
\begin{align*}
{U_A}^2 &= \frac{1}{8}\left\{(65 – 76)^2 + \dots + (95 – 76)^2\right\}\\
& = 83
\end{align*}
$$
B組の得点の不偏分散\({U_B}^2\)は
$$
\begin{align*}
{U_B}^2 &= \frac{1}{8}\left\{(61 – 79)^2 + \dots + (83 – 79)^2\right\}\\
& = 127.5
\end{align*}
$$
と求められます。
したがって、2つの標本の不偏分散を1つにまとめた不偏分散\({U_p}^2\)は
$$
\begin{align*}
{U_p}^2 &= \frac{(m – 1){U_A}^2 + (n – 1){U_B}^2}{m + n – 2} \\
&= \frac{(9 – 1) \times 83 + (9 – 1)\times 127.5}{9 + 9 – 2}\\
&= 105.25
\end{align*}
$$
となります。
以上より、T統計量の実現値tは
$$
\begin{align*}
t &= \frac{\bar{X} – \bar{Y}}{{U_p}^2\sqrt{(\frac{1}{m} + \frac{1}{n})}}\\
&= \frac{76 – 79}{105.25 \times \sqrt{(\frac{1}{9} + \frac{1}{9})}} \\
& \simeq -0.62
\end{align*}
$$
tが、棄却域
$$ T \leq 2.12 \quad 2.12 \leq T $$
外にあるため、「標本から得られた結果が確率的に起こり得る」と解釈できます。
したがって、帰無仮説
すなわち、「A組とB組の間で得点に有意な差はない」という結論が得られます。
【ウェルチの検定】
2標本T検定(母分散が等しくない場合)
次に、二つの正規母集団AとBの母分散が等しくない場合の2標本t検定のやり方について解説します。
母分散が等しくない場合の2標本のt検定は特別に、ウェルチの検定(Welch’s test)と言います。
現実の問題では、母分散が等しい場合よりも等しくない場合の方が多いので、ウェルチの検定を使う機会が多いです。
母分散が等しい場合と同様に、正規母集団Aからは大きさmの標本を、正規母集団Bからは大きさnの標本を抽出したとします。
また、正規母集団Aの不偏分散を\({U_A}^2\)、正規母集団Bの不偏分散を\({U_B}^2\)と表します。
母分散が等しくない場合の2標本t検定は、以下の定理を利用して検定を行います。
二つの正規母集団AとBの母平均が場合
\[ T = \frac{\bar{X} – \bar{Y}}{\sqrt{\frac{{U_A}^2}{m} + \frac{{U_B}^2}{n}}} \]
で表せる2標本統計量Tは、自由度\(\nu\)のt分布に従います。
なお、
$$ \nu = \frac{(p + q)^2}{\frac{p^2}{m – 1} + \frac{q^2}{n – 1}} $$
であり、
$$ p = \frac{{U_A}^2}{m} \quad q = \frac{{U_B}^2}{n} $$
で算出します。
例題
ある学校で、A組とB組からそれぞれランダムに10人の生徒を選んでテストを行いました。得点は以下のようになりました。
A組の得点:{65, 70, 72, 68, 75, 80, 82, 76, 79}
B組の得点:{70, 72, 75, 71, 74, 76, 80, 78, 77, 81}
これらのデータから、A組とB組の間で得点に有意な差があるかどうかをウェルチの検定を用いて調べてください。
ただし、A組とB組の得点の母分散は等しくないと仮定します。
先ほどの例題と同様に仮説検定の手順に基づいて進めていきます。
なお、例題の計算過程から、A組の不偏分散\({U_A}^2\)は
$$ {U_A}^2 = 83 $$
B組の不偏分散\({U_B}^2\)は
$$ {U_B}^2 = 127.5 $$
と算出しました。
①:帰無仮説\(H_0\)、対立仮説\(H_1\)を設定する
「A組とB組の間で得点に有意な差があるか」を調べるので、
- 帰無仮説\(H_0\):\(u_A\) = \(u_B\)
- 対立仮説\(H_1\):\(u_A\) ≠ \(u_B\)
と設定します。
帰無仮説と対立仮説の設定から、今回は「両側検定」を行います。
②:帰無仮説\(H_0\)を真として、統計量の分布を求める
帰無仮説を真とするため、
$$ u_A = u_B $$
の元で進めていきます。
上記で学習した定理より、等分散でない場合
\[ T = \frac{\bar{X} – \bar{Y}}{\sqrt{\frac{{U_A}^2}{m} + \frac{{U_B}^2}{n}}} \]
で表せる2標本統計量Tは、自由度\(\nu\)のt分布に従います。
なお、
$$ \nu = \frac{(p + q)^2}{\frac{p^2}{m – 1} + \frac{q^2}{n – 1}} $$
であり、
$$ p = \frac{{U_A}^2}{m} \quad q = \frac{{U_B}^2}{n} $$
で算出します。
③:有意水準を決める
今回は問題文で、有意水準αが
$$ \alpha = 0.05 $$
と定められています。
④:有意水準と統計量の分布から、棄却域を設定する
今回は両側5%検定を行うため、上側2.5%点\(P_+\)と下側2.5%\(p_-\)を求めます。
まず、自由度\(\nu\)を求めるために「p」と「q」を算出します。
$$
\begin{align*}
p &= \frac{{U_A}^2}{m} \\
&= \frac{83}{9} \\
\end{align*}
$$
$$
\begin{align*}
q &= \frac{{U_B}^2}{n} \\
&= \frac{127.5}{9} \\
\end{align*}
$$
よって、自由度\(\nu\)は
$$
\begin{align*}
\nu &= \frac{(p + q)^2}{\frac{p^2}{m – 1} + \frac{q^2}{n – 1}} \\
& \simeq 15
\end{align*}
$$
計算サイトやt分布表を用いると
$$ p_+ = 2.13 \quad p_- = -2.13 $$
と分かります。
したがって、2標本統計量Tの棄却域は
$$ T \leq 2.13 \quad 2.13 \leq T $$
となります。
⑤:標本から得られた結果が確率的に起こり得るなら、帰無仮説\(H_0\)を受容・対立仮説\(H_1\)を棄却
⑥:標本から得られた結果が確率的に起こり得ないなら、帰無仮説\(H_0\)を棄却・対立仮説\(H_1\)を採択
T統計量の実現値tを求めます。
先ほどの例題から、A組の得点の標本平均\(\bar{X_A}\)は
$$ \bar{X_A} = 76 $$
B組の得点の標本平均\(\bar{X_B}\)は
$$ \bar{X_B} = 79 $$
と求められました。
よって、T統計量の実現値tは
$$
\begin{align*}
t &= \frac{\bar{X} – \bar{Y}}{\sqrt{\frac{{U_A}^2}{m} + \frac{{U_B}^2}{n}}}\\
&\simeq -0.62
\end{align*}
$$
tが、棄却域
$$ T \leq 2.13 \quad 2.13 \leq T $$
外にあるため、「標本から得られた結果が確率的に起こり得る」と解釈できます。
したがって、帰無仮説
すなわち、「A組とB組の間で得点に有意な差はない」という結論が得られます。