F分布
F分布に従う統計量
2つの正規母集団から抽出した無作為標本に対し、不偏分散を\(U_1^2\)、\(U_2^2\)とする。
\begin{align*}
&F=\frac{U_1^2}{U_2^2}\\
\end{align*}
は自由度\((m-1,n-1)\)の\(F\)分布に従う。
アラフィフから学ぶ統計学
2つの正規母集団から抽出した無作為標本に対し、不偏分散を\(U_1^2\)、\(U_2^2\)とする。
データのサイズが小さい時に使う分布。小標本から母集団を推測するときに使用する。自由度が大きくなるほど標準正規分布の確率密度関数に近づく。
母平均の推定(母分散が未知)
$$z=\frac{\overline{x}-μ}{\frac{σ}{\sqrt{n}}}$$
\(σ\)を標本標準偏差\(s\)に置き換える
$$t=\frac{\overline{x}-μ}{\frac{s}{\sqrt{n}}}$$
の従う分布は自由度\((n-1)\)の\(t\)分布となる。
$$E[t]=0 m≧2$$
$$V[t]=\frac{m}{m-2} m>2$$
※\(m\)は自由度
$$\overline{x}-t_\frac{α}{2}(n-1)・{\sqrt{\frac{s^2}{n}}}≦μ≦\overline{x}+t_\frac{α}{2}(n-1)・{\sqrt{\frac{s^2}{n}}}$$
標準化された偏差平方和で、標本の値が、理論的な値からどの程度離れているかを表す。確率変数\(Z_1\)、\(Z_2\)…、\(Z_n\)が互いに独立に標準正規分布\(N(0,1)\)に従うとき、
$$W=Z^2_1 + Z^2_2 + ・・・+Z^2_n$$
の従う分布を自由度\(n\)の\(χ^2\)分布(chi-square distribution with n degrees of freedom)とよぶ。
母分散の区画推定、適合度の検定、独立性の検定
$$E[W]=n$$
$$V[W]=2n$$
$$W=\sum_{i=1}^n \frac{(X_i-μ)~^2}{σ^2}$$
は自由度\(n\)の\(χ^2\)分布に従う。
$$W=\frac{(n-1)・S^2}{σ^2}$$
は自由度\(n-1\)の\(χ^2\)分布に従う。
$$\frac{(n-1)S^2}{χ^2_\frac{α}{2}(n-1)}≦σ^2≦\frac{(n-1)S^2}{χ^2_{1-\frac{α}{2}}(n-1)}$$
ある事象の発生間隔(時間)のモデル。ポワソン分布は回数モデルだったのに対して、指数分布は時間のモデル。
・交通事故の発生から次の事故発生までの時間
・受付に次の顧客が来るまでの待ち時間
・次の電話があるまでの時間
・高速道路の料金所で次の自動車が通過するまでの時間
・ある商品が故障するまでの時間は平均10000時間として、使用してから5000時間後に故障していない確率
\[
x≧0\\
f(x)=λe^{-λx}\\
x≦0\\
f(x)=0\\
\]
\[
E[X]=\frac{1}{λ}\\
V[X]=\frac{1}{λ^2}\\
\]
・少なくとも1時間以内に次の事故が起こる確率
・10分以内に次の顧客がくる確率
\[
x≧0\\
f(x)=P(X≦x)=1-e^{-λx}\\
\]
どの値も同じ起こりやすさであるもの。離散型一様分布と連続型一様分布に分けられる。
・精密なサイコロを振って出る目の分布
・乱数表(ランダムサンプリングを実施するとき)
・ルーレットの出る目
\[
μ=\frac{1}{n}・\sum_{i=1}^n S_i\\
σ^2=\frac{1}{n}・\sum_{i=1}^n (S_i-μ)^2\\
\]
・バス発車後、0~10分の間に乗客がバス停に来る分布
U(0,10)と表記する。
・金物のコーディング膜の厚さ
U(25,30)
\[
μ=\frac{a+b}{2}\\
σ^2=\frac{(a+b)^2}{12}\\
\]
ベルヌーイ試行を、初めて成功するまで繰り返したときの試行回数Xの確率分布
幾何分布は、離散型確率分布の一種で、たとえば、サイコロの6が出るまで繰り返した場合の確率を求めるときなどに使う。
\[
P(X=x)=f(x)=p(1-p)^{x-1}\\
(x=1,2,3・・・)\\
\]
サイコロを振って6が出る確率は、\(\frac{1}{6}\)で、1回目と6回目で6が出る確率は、
\[
P(X=x)=f(x)=\frac{1}{6}・(1-\frac{1}{6})^{1-1}\\
=0.167\\
P(X=x)=f(x)=\frac{1}{6}・(1-\frac{1}{6})^{6-1}\\
=\frac{1}{6}・(\frac{5}{6})^5\\
=0.067
\]
\[
E[X]=\frac{1}{p}\\
V[X]=\frac{1-p}{p^2}\\
\]
\[
E[X]=\frac{1}{\frac{1}{6}}=6\\
\]
まれに起こる現象に対する確率モデル。平均\(λ\)が一定数以上なら、正規分布に近似できると考えられる。
・交通事故の発生件数
・受付にくる顧客数
・一定期間内にかかってくる電話の回数
・料金所を通過するバイクの台数
・1日平均2件の契約を達成する会社が、明日3件の契約を成立できる確率
・30分に2人から電話がくる会社で、1時間に6人から電話がくる確率
$$np=λ$$
$$f(x)=e^{-λ}・\frac{λ^x}{x!}$$
※eは自然対数:約2.71828
ポアソン分布の平均 \(λ\)
ポアソン分布の分散 \(λ\)
1日の平均契約数が2件である住宅販売会社で、明日、3件の契約が成立する確率
$$P(x,λ)=2.71828^{-2}・\frac{2^3}{3!}=0.180$$
サッカーでは1試合当たりの得点数は多くならない(まれに起こる現象)なので、ポアソン分布に近似する(先行研究で証明されているそうです)
2016年のJ1全試合数306試合の総得点を集計し、まとめました。
<1試合当たりの得点数と確率>
<実際の確率(ヒストグラム)とポアソン分布(折れ線)>
出典:Jリーグデータサイト
二項分布は離散型確率分布の一つである。結果が2択で、成功か失敗かのどちらかとなるもの。コインの表が成功、裏が失敗、サイコロで3の倍数が成功、それ以外は失敗と、結果が2択であればよい。\(n\)回試行し、成功する確率を\(p\)で表す。この試行をベルヌーイ試行(実験)という。
・ある商品の不良品率が10%のとき、ランダムに選んだ10個の商品の中に、不良品が多くても1個しか含まれない確率
・選択肢が5つある問題が全部で10問ある。全く勉強していない生徒がたまたま5問以上正解する確率
・ある政策に対する支持率が5%である場合、ランダムに20人の国民が選ばれる。この政策を支持する国民が4人以上いる確率
$$P(X=k) = {}_n \mathrm{C} _k P^k (1-P)^{n-k}$$
$$X~B(N,P)$$
$$E[X]=np$$
$$V[X]=npq=np(1-p)$$
$${}_n \mathrm{C}_r = \frac{n!}{r!(n-r)!}$$
$${}_n \mathrm{P}_r = \frac{n!}{(n-r)!}$$
離散型確率分布はサイコロの目のように、1、2、3と数字が連続していない(1.1や1.11などがない)場合で、連続型確率分布は、1から6までの乱数のように、離散型と違って、1.1や1.11など連続している場合である。離散型であるサイコロの目の場合、3が出る確率は1/6ように表すことができるが、連続型で3が出る確率は1/6ではない。3の直前には2.9999999・・・と無限に考えられるため1から6までに含まれる数値は無限にある。そのため、連続型で3が出る確率は、「1/∞=0」となる。
\begin{align*}
& P(X=x_i)=P(x_i)\\
& i=1,2・・・\\
\end{align*}
をXの確率分布という。
\begin{align*}
&\sum_{i=1}^∞ p(x_i)=1\\
& p(x_i)≧0, i=1,2・・・\\
\end{align*}
このPを離散型確率分布という。
分布関数と確率密度関数を理解するためには、高校数学で学習する不定積分と導関数の知識が必要である。計算式は一見複雑だが、それほど難しくない。
不定積分
\begin{align*}
&\int x^n dx = \frac{1}{n+1} x^{n+1} + C\\
\end{align*}
導関数(ある関数を微分して得られた関数)
\begin{align*}
&x^n = n x^{n-1}\\
\end{align*}
試験問題で与えられる次のような前提も理解する必要がある。
\(F(x) =\)
\begin{cases}
0 : x < 0 \\
x^2 : 0 ≦ x ≦ 1 \\
1 : x > 1 \\
\end{cases}
確率密度関数で表すと⇒
\(f(x) =\)
\begin{cases}
0 : x < 0 \\
2x : 0 ≦ x ≦ 1 \\
1 : x > 1 \\
\end{cases}
サイコロを1回振った時にそれぞれの出る目の確率は\(\frac{1}{6}\)なので、次のようになる。
サイコロの出目が1以下である確率は\(\frac{1}{6}\)、2以下である確率は\(\frac{2}{6}\)、3以下である確率は\(\frac{3}{6}\)となり、これをまとめたものが次の表である。
累積相対度数と同じ考えである。これを踏まえると、分布関数を理解しやすい。
確率変数\(X\)が\(X≦x\)になる確率
\begin{align*}
&F(x)=P(X ≦ x)
\end{align*}
グラフにすると次のようになる。
連続確率変数・離散確率変数共通
\begin{align*}
&0 ≦ F(x) ≦ 1\\
&\displaystyle \lim_{x \to \infty} f(x)=1、\displaystyle \lim_{x \to -\infty} f(x)=0\\
&F(x)は単調非減少関数
\end{align*}
一様分布(離散確率変数)の分布関数と確率密度関数は次のようになる。
一方、連続確率変数の分布関数と確率密度関数は次のようになる。
分布関数を微分すると確率密度関数になる。
連続確率変数・離散確率変数共通
\begin{align*}
&f(x) ≧ 0\\
&\\
&\int_{-∞}^∞ f(x) dx = 1 \\
\end{align*}
期待値の求め方
\begin{align*}
&E[X] = \int xf(x) dx\\
\end{align*}
分散の求め方
\begin{align*}
&σ^2 = \int (x-μ)^2 f(x) dx\\
&σ^2 = \int x^2 f(x) dx – μ^2\\
\end{align*}
中央値(第2四分位)の求め方
\begin{align*}
&P(X ≦ x ) = \frac{1}{2}\\
&\int_a^b f(x) dx = \frac{1}{2}\\
\end{align*}
第1四分位の位置を\(t\)と置く。
\begin{align*}
&\int_a^t f(x) dx = \frac{1}{4}\\
\end{align*}
1 ラプラスの定義:同様に確からしい根元事象を想定して計算
2 頻度に基づく定義(頻度論):大数の法則
3 主観に基づく定義(ベイズ統計学):主観確率
・時間をさかのぼって考える(熱が出たから風邪ではないか?)
・ベイズの定理で求めているのは、条件付き確率である。
・迷惑メールの判別
・機械学習
・病気
など
Aの起こる事象を円Aで表すと、Aが起こる条件の下でBの起こる確率は、円Aと円Bの重なる箇所となる。
※ベン図 A∩B≠0 のとき
Aの起こる条件の下でBの起こる確率は、次の式で求められる。
$$P(B|A)=\frac{P(A \cap B)}{P(A)}・・・① ※P(A) ≠ 0$$
同様に、Bの起こる条件の下でAの起こる確率は、次の式となる。
$$P(A|B)=\frac{P(A \cap B)}{P(B)}・・・② ※P(A) ≠ 0$$
これを乗法定理という。
この式を変形すると、
$$P(A \cap B)=P(B)P(A|B) ※P(A) ≠ 0$$
となり、これを①の式に代入すると、
$$P(B|A) = \frac{P(B)P(A|B)}{P(A)}・・・③$$
となる。
分母のP(A)は、
$$P(A \cap B_1)+P(A \cap B_2)+・・・+P(A \cap B_k)$$
と考えることができる。
この式を乗法定理を使って表すと、
$$P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+・・・+P(B_i)P(A|B_k)$$
となり、これを③の式に代入してまとめると、
$$P(B_i|A) = \frac{P(B_i)P(A|B_i)}{ {\displaystyle \sum_{j=1}^{n}} P(B_j)P(A|B_j)}$$
が導き出される。これをベイズの定理という。
なお、
P(Bi):事前確率(prior probability)
P(Bi|A):事後確率(posterior probability)
とよぶ。
メールに含まれる文字情報で、これまでの情報から80%が正常のメール、20%が迷惑メールであることが分かっていた。今回の調査では、ある文字が使われていた場合、正常のメールである確率は20%だが、迷惑メールである確率は80%となっていた。この文字を含んでいるメールが迷惑メールである確率はどのくらいか。
・ある文字が含まれている確率は、
0.8×0.2+0.2×0.8=0.32
・そのうち、迷惑メールである確率は80%なので、
0.2×0.8/0.32=0.5