第10章では、第9章に引き続き、z検定とt検定について解説していきます!
前章では、1つの母集団の母平均や母比率が比較値と異なるかについて説明しました。
これに対し本章では、2つの母集団の母平均・母比率が異なるかについて仮説検定していきます。
前章と流れは似ているので、頑張っていきましょう!
また、本章で用いるExcelファイルは以下からダウンロードして下さい!
本連載講座【Excelによる統計解析講座】では、Excel未経験の方、自身の無い方でも順を追って学習でき、基礎からデータ分析に必要なスキルまでを身に付ける事が出来ます。
画像が多く、ビジュアルで理解しやすくなっておりますので、読み物が得意ではないという方も大丈夫です!
また、第7章からは、統計学の分野も扱う為、様々な方に役立つ講座となっております。
そのため、
- Excelを仕事で使う可能性のある方
- Excelに自信のない方
- データ分析をExcelでやりたい方
等は是非、TechTeacherが運営する【Excelによる統計解析講座】を使って学習していって下さい!
〈目次〉
第1章:【テーブル】Excelのテーブル(フィルター)を解説!
第2章:【SUM,AVERAGE】Excelの基本的な関数を解説!
第3章:【XLOOKUP,COUNTIF】データ分析の為のExcel関数を解説!
第4章:【棒,折れ線,散布図】Excelの基本的なグラフを解説!
第5章:【ピボットテーブル】Excelの便利機能”ピボットテーブル”を紹介!
第6章:【プレゼン資料】Excelグラフの体裁の整え方について解説!
第7章:【相関分析】相関係数と共分散をExcelを用いて解説!
第8章:【確率変数・正規分布】確率変数や正規分布をExcelで解説!
第9章:【t検定・z検定】母平均と母分散の仮説検定について解説!
第10章:【t検定・z検定】2つの集団の母平均・母比率の仮説検定を解説!
第11章:【仮説検定】カイ二乗検定とF検定をExcelで一瞬で解く!
対応のあるデータと対応ないデータ
検定方法の選択
本章で行う、母平均の差の検定と母比率の差の検定において、その検定方法は以下の様に分類されます。
母平均の差の検定 | 母比率の差の検定 | |
対応のあるデータ | t検定 | マクネマー検定※1 |
対応のないデータ | t検定 | z検定 |
ウェルチのt検定 |
※1:マクネマー検定は、使用頻度と特殊さより、本講座では割愛します。
この、対応あるデータ、対応ないデータとは何かについて説明していきます。
対応あるデータと対応ないデータとは
この2つは簡単に言うと、
比較するデータが同じ対象者の場合:対応のあるデータ
比較するデータが異なる対象者の場合:対応のないデータ
といった違いです。
例えば、加湿器Hの性能テストを行うとします。
この時、進化した加湿器Hの使用前と使用後の湿度の違いについて比較すると、比較する2つのデータは同じ製品についてのデータになります。
これを対応のあるデータと言います。
これに対し、従来の加湿器Eと進化した加湿器Hの性能の差を検証するために、両加湿器をそれぞれの部屋に使用してその湿度の上昇幅を比較すると、比較する2つのデータは異なる製品のものになります。
これを対応のないデータと言います。
これらの例をまとめると、以下の様になります。
母平均の差の検定
対応のない場合の母平均の差の検定
例題1(対応のない場合の母平均の差の検定)
C病院は、効果の高い解熱剤を求めて、A社とB社の解熱剤を比較しています。Excelファイル1ページ目のA社とB社の解熱剤の効果試験の結果から、A社とB社の解熱剤の効果に違いがあるかについて有意水準1%で、母標準偏差[母分散]が等しい場合と等しくない場合両方について仮説検定してみましょう。
ただし、母集団正規性は不明とします。
まず、仮説検定の手順についておさらいします。
- 帰無仮説と対立仮説を立てる。
- 基本統計量(平均値、標準偏差、標準誤差)を算出する。
- T値を算出する。
- 有意差判定を行う。
これに従って、仮説検定を行っていきましょう!
まず、①帰無仮説と対立仮説を立てます。
「A社とB社の解熱剤の効果に違いがあるかについて」調べたいので、
帰無仮説:A社とB社の解熱剤の効果に違いはない
対立仮説:A社とB社の解熱剤の効果には違いがある
となり、対立仮説から、両側検定を用います。
今回は、A社とB社の解熱剤使用時の体温の変化幅について考えます。
次に、②基本統計量(平均値、標準偏差、標準誤差)を算出します。
まず、平均値と標準偏差は以下の様に計算できます。
ここで、対応のない場合の母平均の差の検定では、母分散が等しいかによって、標準誤差(SE)の算出方法が変わります。
〇母分散が等しくない(\(\sigma_{A}\neq\sigma_{B}\))時(→ウェルチのt検定)
この時、SEは以下の様に計算できます。
ただし、\(s_{A},s_{B}\)をA社、B社の結果の標準偏差、\(n_{A},n_{B}\)をデータサイズとします。
\[ SE = \sqrt{\frac{s_{A}^{2}}{n_{A}}+\frac{s_{B}^{2}}{n_{B}}} \]
〇母標準偏差が等しい(\(\sigma_{A}=\sigma_{B}\))時(→t検定)
この時、SEは以下の様に計算できます。
\[ SE = \sqrt{\frac{s^{2}}{n_{A}}+\frac{s^{2}}{n_{B}}} \]
ただし、\(s^{2}\)は以下の計算されます。
\[ s^{2} = \frac{(n_{A}-1)s_{A}^{2}+(n_{B}-1)s_{B}^{2}}{n_{1}+n_{2}-2} \]
よって、これより、基本統計量は、以下の様に計算できます。
続いて、③T値を算出します。
T値は、比較する平均の差をSEで割ったものなので、A社、B社の平均値を\( \bar{x_{A}},\bar{x_{B} \)として、今回は以下の式で算出できます。
\[ \text{T値} = \frac{\bar{x_{A}}-\bar{x_{B}}}{\text{SE}} \]
これより、以下の様にT値が計算できます。
ここで、検定方法について、母平均の検定には、z検定かt検定が用いられますが、今回は、母集団正規性が不明かつデータ数が、2標本合わせて95であるため、t検定を用います。
この検定方法の選択について、詳しくは前章の【t検定・z検定】母平均と母分散の仮説検定について解説!をご参照下さい。
ここで、自由度を考えます。
ウェルチのt検定(\(\sigma_{A}\neq \sigma_{B}\))とt検定(\(\sigma_{A}=\sigma_{B}\))では自由度の算出方法も異なります。
〇ウェルチのt検定における自由度の算出方法
ウェルチのt検定の時、その自由度fは以下の様に計算できます。
\[ f= \frac{(\frac{s^{2}_{A}}{n_{A}}+\frac{s^{2}_{B}}{n_{B}})^{2}}{\frac{s^{4}_A}{n^{2}_{A}(n_{A}-1)}+\frac{s^{4}_B}{n^{2}_{B}(n_{B}-1)}}\]
〇t検定における自由度の算出方法
t検定の時、その自由度fは以下の様に計算できます。
\[ f= n_{A}+n_{B}-2 \]
これより、それぞれの自由度は以下の様に計算できます。
更に、棄却限界値は、有意水準1%より、以下の関数で計算できます。
=T.INV.2T(0.01,自由度)
よって、棄却限界値は以下の様に計算できます。
最後に、④有意差判定を行います。
上の画像より、母標準偏差が等しくない時と等しい時両方に関して、棄却限界値<T値となっているので、帰無仮説を棄却できます。
よって、A社とB社の解熱剤の効果には違いがあるという事が出来ます。
2つの母集団の母平均の差の検定において、母標準偏差未知、母集団正規性不明、データ数(\(n_{A}+n_{B}\))が30以上の場合がほとんどです。その為、今回の問題の流れは是非覚えておきましょう!
対応のある場合の母平均の差の検定
例題2(対応のある場合の母平均の差の検定)
A社の解熱剤Hに関して、この効果を明らかにするために、解熱剤Hの投薬前と後について、患者の体温を測定しました。Excelファイル2ページ目の測定結果のデータから、測定前と測定後のデータの母平均に差があるかを調べ、解熱剤Hの効果を有意水準1%で明らかにしてみましょう。
ただし、母集団の正規性は不明であるとします。
では、この問題について、仮説検定を行っていきましょう!
まず、①帰無仮説と対立仮説を立てます。
問題文より、帰無仮説と対立仮説は以下の様になります。
帰無仮説:2つの母平均の差はゼロ
対立仮説:投与後の方が投与前よりも体温が低い
これより、今回は片側検定(右側検定)を行っていきます。
次に、②基本統計量を算出します。
対応のある母平均の差の検定におけるSEは、定義通りに以下の式で計算されます。
\[ SE = \frac{\sigma}{\sqrt{n}} \]
その為、基本検定量は、変化幅に関して、以下の様に簡単に算出できます。
続いて、③T値を算出します。
対応のある母平均の差の検定におけるT値は、以下の式で算出できます。
\[ \text{T値} = \frac{\bar{x}}{SE} \]
今回、「異なるか」の検定である為、帰無仮説が変化幅=0である事を考えると、この計算式になるのも頷けると思います。
また、母集団正規性が不明かつ、データサイズが30以上であるため、t検定を用います。
よって、t分布における有意水準1%の片側検定である為、棄却限界値は次の様に計算できます。
最後に、④有意差判定を行います。
上の画像から、棄却限界値<T値である為、帰無仮説は棄却する事が出来ます。
よって、解熱剤Hには解熱効果があるという事が出来ます。
母比率の差の検定
前述した様に、本講座では、対応のない場合の母比率の差の検定のみ行います。
1つの母比率の検定の時と同様に、対応のない2つの母比率の差の検定でも、z検定のみとなります。
例題3(対応のない場合の母比率の差の検定)
E社の動画学習教材の効果を明らかにするために、進学校の生徒50人と非進学校の生徒40人に動画学習教材を使用してもらい、その成果についてアンケートを取った。その結果は、進学校の生徒は30人、非進学校の生徒は25人が「成績が上がった」と回答しました。
この時、Excelファイル3ページ目を用いて、この動画学習教材の効果について、進学校と非進学校の生徒で違いがあるかを有意水準5%で、調べてみましょう。
まず、①帰無仮説と対立仮説を立てます。
今回は、問題文より、進学校の割合を\(\bar{p_{A}}\)、非進学校の割合を\(\bar{p_{B}}\)として、以下の様に帰無仮説と対立仮説が立てられます。
帰無仮説:両校の動画学習教材の効果の母比率は同じ(\(\bar{p_{A}}=\bar{p_{B}}\))
対立仮説:両校の動画学習教材の効果の母比率は異なる(\(\bar{p_{A}}\neq\bar{p_{B}}\))
ここで、対立仮説より、今回は両側検定を用いる事が分かります。
次に、②基本統計量を算出します。
前章の母比率の時と同様に、平均と標準偏差は必要ないため、SEについてのみ考えます。
対応のない場合の母比率の差の検定の時のSEは、以下の様に計算できます。
\[ SE = \sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_{A}}+\frac{1}{n_{B}})} \]
ただし。\(\bar{p}\)は以下の様に計算できます。
\[ \bar{p}=\frac{n_{A}\bar{p_{A}}+n_{B}\bar{p_{B}}}{n_{A}+n_{B}} \]
今回は、Excelで計算してみましょう!
続いて、T値を算出します。
T値に関しては、定義通り、母比率の差をSEで割る事で、以下の様に算出できます。
\[ \text{T値} = \frac{\bar{p_{B}}-\bar{p_{A}}}{SE} \]
また、棄却限界値は、z検定、有意水準5%、両側検定であることから、以下の式で算出できます。
=NORM.S.INV(0.95)
これより、T値及び棄却限界値は以下の様に算出できます。
最後に、④有意差判定を行います。
T値<棄却限界値である為、今回は、有意差が見られず、帰無仮説は棄却できないといった結果になりました。
母平均と母比率のデータ分析ツールを用いた検定
では、これまで考えてきた例題に関して、第8章で紹介した、データ分析ツールを使って仮説検定を行っていきましょう!
2つの母平均の差の検定には、データ分析ツールを用いる事が出来ます。
ただし、z検定に関しては、前述した様に、使用頻度が高くない為、割愛させていただきます。
対応のない場合の母平均の差の検定(異分散)
対応のない場合に母平均の差の検定において、例題1で解いたように、2つの母分散が等しいかによって、SE及び自由度が変わります。
ここで、母分散が等しい場合を等分散、等しくない場合を異分散と言います。
まずは、異分散の場合についてExcelファイルの4ページ目について、データ分析ツールを用いてみましょう!
例題1(対応のない場合の母平均の差の検定)
C病院は、効果の高い解熱剤を求めて、A社とB社の解熱剤を比較しています。Excelファイル1ページ目のA社とB社の解熱剤の効果試験の結果から、A社とB社の解熱剤の効果に違いがあるかについて有意水準1%で、母標準偏差[母分散]が等しい場合と等しくない場合両方について仮説検定してみましょう。
ただし、母集団正規性は不明とします。
まず、「データ」タブから、「データ分析ツール」をクリックして、①「t-検定: 分散が等しくないと仮定した2標本による検定」を選択して、②「OK」をクリックします。
※「データ分析ツール」が無いという方は、第8章【相関分析】相関係数と共分散をExcelを用いて解説!内の「データ分析ツールを用いた共分散と相関係数の算出方法」をご参照下さい!
次に、③「変数1の入力範囲」と「変数2の入力範囲」について、2つのデータを入力して下さい。この時、”B:B”の様に、列全体で入力することは避けましょう!
続いて、④「A社」、「B社」を含むため、「ラベル」にチェックを入れて、⑤「OK」をクリックします。
すると、以下の様に新しいシートが生成されます。
上の画像について、表示がp値になっているので、少しp値について解説します。
p値とは、仮説検定で導き出した結論の誤りの確率であり、下の図の様に、T値より端側の面積(確率)になります。
つまり、有意水準より小さければ帰無仮説が棄却出来るわけです。
これを踏まえて、もう一度結果を見ると、例題1の両側検定に対して、有意水準1%より、0.005>p値となっており、帰無仮説は棄却できる事が分かります。
対応のない場合の母平均の差の検定(等分散)
同様にして、母分散が等しい場合(=等分散)にもデータ分析ツールを使ってみましょう!
例題1(対応のない場合の母平均の差の検定)
C病院は、効果の高い解熱剤を求めて、A社とB社の解熱剤を比較しています。Excelファイル1ページ目のA社とB社の解熱剤の効果試験の結果から、A社とB社の解熱剤の効果に違いがあるかについて有意水準1%で、母標準偏差[母分散]が等しい場合と等しくない場合両方について仮説検定してみましょう。
ただし、母集団正規性は不明とします。
まず、「データ」タブから、「データ分析ツール」をクリックして、①「t-検定: 等分散を仮定した2標本による検定」を選択して、②「OK」をクリックします。
次に、③「変数1の入力範囲」と「変数2の入力範囲」について、2つのデータを入力します。
続いて、④「A社」、「B社」を含むため、「ラベル」にチェックを入れて、⑤「OK」をクリックします。
すると、以下の様に新しいシートが生成されます。
これより、例題1の両側検定に対して、有意水準1%より、0.005>p値となっており、帰無仮説は棄却できる事が分かります。
対応がある場合の母平均の差の検定
更に同様にして、対応がある場合の母平均の差の検定についても、データ分析ツールを使っていきましょう!
例題2(対応のある場合の母平均の差の検定)
A社の解熱剤Hに関して、この効果を明らかにするために、解熱剤Hの投薬前と後について、患者の体温を測定しました。Excelファイル2ページ目の測定結果のデータから、測定前と測定後のデータの母平均に差があるかを調べ、解熱剤Hの効果を有意水準1%で明らかにしてみましょう。
ただし、母集団の正規性は不明であるとします。
まず、「データ」タブから、「データ分析ツール」をクリックして、①「t-検定: 一対の標本による平均の検定ツール」を選択して、②「OK」をクリックします。
次に、③「変数1の入力範囲」と「変数2の入力範囲」について、2つのデータを入力します。
続いて、④「投与前」、「投与後」を含むため、「ラベル」にチェックを入れて、⑤「OK」をクリックします。
すると、以下の様に新しいシートが生成されます。
これより、例題2の片側検定に対して、有意水準1%より、0.01>p値となっており、帰無仮説は棄却できる事が分かります。
『Tech Teacher』3つの魅力
魅力1. オーダーメイドのカリキュラム
『Tech Teacher』では、決められたカリキュラムがなくオーダーメイドでカリキュラムを組んでいます。「質問だけしたい」「相談相手が欲しい」等のご要望も実現できます。
魅力2. 担当教師によるマンツーマン指導
Tech Teacherでは、完全マンツーマン指導で目標達成までサポートします。
東京大学を始めとする難関大学の理系学生・院生・博士の教師がが1対1で、丁寧に指導しています。
そのため、理解できない箇所は何度も分かるまで説明を受けることができます。
魅力3. 3,960円/30分で必要な分だけ受講
Tech Teacherでは、授業を受けた分だけ後払いの「従量課金制」を採用しているので、必要な分だけ授業を受講することができます。また、初期費用は入会金22,000円のみです。一般的なプログラミングスクールとは異なり、多額な初期費用がかからないため、気軽に学習を始めることができます。
まとめ
・魅力1. 担当教師によるマンツーマン指導
・魅力2. オーダーメイドのカリキュラム
・魅力3. 3,960円/30分で必要な分だけ受講
質問のみのお問い合わせも受け付けております。
まとめ
今回のExcelによる統計解析講座第9章では、z検定やt検定を用いた、2つの母集団の母平均・母比率が異なるかについての仮説検定について解説してきました。
前章と本章で、仮説検定の流れにはかなり慣れてきたと思います。
次章では、F検定とカイ二乗検定について解説していきます。
特にカイ二乗検定に関しては、t検定と並んで使いやすい検定ですので、是非読んでみて下さい!