独立性の検定
独立性の検定
準備中
アラフィフから学ぶ統計学
母比率\(p\)が未知である二項母集団について、標本比率の実現値を算出して、母比率\(p\)を検定する
1. 仮説を立てる
帰無仮説\(H_0\)、対立仮説\(H_1\)
2. 有意水準を決める
\(P(|z|≧1.96)=0.05\)、\(P(|z|≧2.58)=0.01\)
3. 棄却域を決める
4. 検定統計量を決める
5. 検定統計量をもとに結論を出す
母分散が未知の場合、母分散と標本分散の平均は等しくならないことから、不偏分散を用いる。不偏分散の平均は母分散と一致する。不偏分散は、(標本数-1)を除して求める。
(1) 母分散既知 ⇒ 正規分布による検定
(2) 母分散未知 ⇒ t分布による検定
確率をもとに「背理法」で結論を導く。背理法は、証明したい事象を「偽」と仮定し、それが誤りであれば、証明したい事象は正しいと結論付ける方法である。求めたいことを対立仮説(alternative hypothesis)\(=H_1\)に置き、棄却したいことを帰無仮説(null hypothesis)\(=H_0\)とする。確率が有意水準(level of significance)\(α\)より小さいとき帰無仮説を棄却(reject)する。
検定の結果、帰無仮説が棄却され、対立仮説が選ばれた場合、この検定が間違っている可能性は、有意水準以下となる。真実は誰にも分からないため統計の知識を使って証明している以上、有意水準以下の誤差は想定内である。この結果は積極的に主張できる。本当は帰無仮説が正しいのに、対立仮説を採択してしまうことを第1種の過誤という。
一方、検定の結果、帰無仮説を受容(accept)されることもある。この場合、十分な資料がなく、帰無仮説が棄却されなかっただけで、帰無仮説を積極的に採択することはできない。本当は対立仮説が正しいのに、帰無仮説が受容されてしまうことを第2種の過誤という。
帰無仮説を\((H_0:p=0)\)、対立仮説を\((H_0:p≠0)\)した場合の検定を両側検定という。また対立仮説を\((H_0:p>0)\)または\((H_0:p<0)\)とした場合の検定を片側検定という。\((H_0:p>0)\)が上側検定、\((H_0:p<0)\)が下側検定となる。
成功確率\(p\)である試行を\(n\)回行う時の成功回数を\(x\)とすると、\(x\)は二項分布\(B(n,p)\)に従う。二項分布に従う確率変数\(x\)の期待値と分散は次の通りである。
$$E[x]=np$$
$$V[x]=npq=np(1-p)$$
母比率の信頼区間
$$\widehat{p}-z_{\frac{\alpha}{2}} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}} \leq p \leq \widehat{p} + z_{\frac{\alpha}{2}} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}$$
母比率の差も近似的に標準正規分布に従う。
$$z=\frac{(\hat{p}_1-\hat{p}_2)-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}}~N(0,1)$$
母分散の区間推定は、カイ二乗分布を使用する。次の統計量は自由度自由度\(n-1\)のカイ二乗分布に従う。
$$χ^2=\frac{(n-1)・S^2}{σ^2}$$
母分散の信頼区間
$$\frac{(n-1)S^2}{χ^2_\frac{α}{2}(n-1)}≦σ^2≦\frac{(n-1)S^2}{χ^2_{1-\frac{α}{2}}(n-1)}$$
●母分散が分からない場合、標本平均\(\overline{x}\)を標本から計算し、不偏分散\(S^2\)を次の式で求める
$$S^2 = \frac{1}{n – 1} \sum_{i = 1}^n {(x_i – \overline{x})^2}$$
●自由度\(n-1\)の\(t\)分布
$$t=\frac{\overline{x}-μ}{\frac{\hat{σ}}{\sqrt{n}}}$$
●100(1-α)%信頼区間の式
$$\overline{x}-t_{\frac{σ}{2}}(n-1)・\frac{σ}{\sqrt{n}}≦μ≦\overline{x}+t_{\frac{σ}{2}}(n-1)・\frac{σ}{\sqrt{n}}$$
※1.96の部分を、\(t\)分布のパーセント点から探し、差し替える。
※\(t\)分布のパーセント点から、\(n\)が大きいほど1.96に近づくことがわかる。
母分散が未知で等しい場合
$$t=\frac{d-δ}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{σ}}~t(m+n-2)$$
プールした分散(併合した分散)
$$\hat{σ}^2=\frac{\sum {(x_i – \overline{x})^2}+\sum {(y_i – \overline{y})^2}}{m+n-2}$$