鈴木です。技術ネタではなく異色のマニアックなネタです。
社内では統計の勉強会を毎週行っております。
その中で、普通の分散は\( n \)で割るのに、
不偏分散はなぜ\( n – 1 \)で割るのか、という疑問がわいたのですが、
社内では誰も納得できる答えを持ち合わせておりませんでした。
文献によっては「自由度」という概念で説明されていたのですが、
単に言葉で誤魔化しただけのような気がして、
自分で納得できる答えを探し求めた結果をここに残しておきます。
不偏分散とは
日本人全体の身長の平均と分散を求めることを考えてみます。
分散というのは、平均からどの程度散らばっているかを示す数値です。
例えば、120cm、140cm、160cmの3人は、138cm、140cm、142cmの3人よりも分散が大きくなります。
日本人全員の身長の分散といった場合は、身長の平均を求めて、
各人の身長から平均を引いた数の二乗を日本人全員で合計したものを、
人口で割ったものになります。
しかし日本人全員の身長をいっせいに測定するのは難しいので、
一部の人たち(標本)だけの身長を測定して、そこから日本人全体(母集団)の平均と分散を推測したいです。
母集団の平均を推測するには、単に標本の平均を計算します。
標本の平均がだいたい母集団の平均になる、というのは、
なんとなくそんな気がしますし、特に疑問には思いませんでした。
ところが分散に関しては、標本の分散よりも母集団の分散の方が少し大きい値になる傾向があります。
標本の分散は、標本となった人たちの身長から標本の平均を引いた数の二乗の合計を
標本の人数で割ったものですが、
母集団の分散を推測するには、
標本の人数の代わりに標本の人数から1引いた人数で割った数値とするのです。
1引いた人数で割ることで少し大きい値になります。
これを不偏分散と言いいます。
なぜ1引いた数で割ると母集団の推測値になるのか?
考察
1を引く、という主張はつまり、
\[ \begin{aligned}
\text{母集団の分散}
&\simeq \frac{ \text{標本の身長から標本平均を引いた数の二乗の和} }{ \text{標本の数} – 1 } \\
\end{aligned} \]
ということです。ここでは、\( \simeq \) を推測の意味で使っています。
\[ \begin{aligned}
\text{母集団の分散}
&\simeq \frac{ \text{標本の身長から標本平均を引いた数の二乗の和} }{ \text{標本の数} – 1 } \\
&\simeq \frac{ \text{標本の数} }{ \text{標本の数} – 1 } \frac{ \text{標本の身長から標本平均を引いた数の二乗の和} }{ \text{標本の数} } \\
&\simeq \frac{ \text{標本の数} }{ \text{標本の数} – 1 } \text{標本の分散} \\
\end{aligned} \]
ですので、左右を入れ替えて、
\[ \begin{aligned}
\text{標本の分散}
&\simeq \frac{ \text{標本の数} – 1 }{ \text{標本の数} } \text{母集団の分散} \\
\end{aligned} \]
を説明できればよいのです。
標本の分散というのは、標本によって少しずつ異なります。仮に標本の人数を30人として、
日本人の中から無作為に30人を抽出した標本の分散が常に一定なわけはありません。
では、無作為に30人を抽出して分散を計算し、また次に無作為抽出して分散を計算し、、、と繰り返し、
分散をたくさん計算して、その平均を計算しようと考えました。その値が、
\( \frac{ \text{標本の数} – 1 }{ \text{標本の数} } \text{母集団の分散} \)
と一致すると嬉しいです。
たくさん計算するといってもどれぐらい計算すればよいでしょうか?
仮に100回繰り返したところで、100個の分散の平均は、決まった値になるわけではなく、
やっぱりゆらぎがありそうです。1引くとよい、ということを納得するためには、
ゆらぎがあっては嫌です。ゆらぎを出さないようにするには、
すべての標本パターンを考えてそれらの分散の平均を計算してしまえばよいと考えました。
すべての標本パターンというのは、人口、仮に1億2千万人とし、
その中から30人を選び出す組み合わせの数だけあります。
いくつぐらいパターンがあるでしょうか?
答えは
894902522371265290536235873763786872666840270542167130028083535705642512846900173240556793266548376184325888396129544134779302645519934770297629266751773551122237533116569271571342701162210755529969199996000000パターンです。
以下のワンライナーで計算しました。
ruby -e ‘N=120000000;n=30;print (N-n+1..N).inject(:) / (1..n).inject(:)’
テキスト処理にはPerlが便利ですが、巨大な整数の計算はRubyが便利です。
Rubyの整数はオーバーフローせずにどこまでも大きくなってくれます。
ということで、89…00(210桁の数)パターンを全部計算してその平均を求め、次の式が成立することを示したいと思います。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{ \text{標本の数} – 1 }{ \text{標本の数} } \text{母集団の分散} \\
\end{aligned} \]
※ここから数式が非常に多くなってきます。数式を追いたくない場合は、
一番下にスクロールすると「最後に」のところに結論だけ書いてあるので
そこまでジャンプしてください。ただ、それだと「なぜ」には答えられません。
計算の準備
ちょっと大変そうなので、少し準備をします。
母集団なのか標本なのかは置いておいて、平均と分散の計算式を整理しておきます。
まずは平均から。\( x \) を身長だとして、
\[ \begin{aligned}
\text{平均}
&= \frac{1}{n} \sum_{i=1}^n x_i \\
\end{aligned} \]
\( \sum \) は、その右にある式を計算した合計という意味で、\( x_i \) は \( i \) 番目の人の身長という意味です。従って、
\[ \sum_{i=1}^n x_i \]
は \( n \) 人の身長の合計です。これを \( n \) で割ったものが平均です。
次は分散。
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n ( x_i – \text{平均} )^2 \\
\end{aligned} \]
括弧の二乗を展開して
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n \left( x_i^2 – 2 x_i \text{平均} + \text{平均}^2 \right) \\
\end{aligned} \]
\( \sum \) を各項に適用して、
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n x_i^2 – 2 \left( \frac{1}{n} \sum_{i=1}^n x_i \right) \text{平均} + \text{平均}^2 \\
\end{aligned} \]
3つ目の項は \( \frac{1}{n} \sum \) がなくなっていますが、\( \text{平均} \) は \( i \) には依らない定数であるためです。2項目の括弧の中を見ると、平均と同じ形をしていますので、
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n x_i^2 – 2 \text{平均}^2 + \text{平均}^2 \\
&= \frac{1}{n} \sum_{i=1}^n x_i^2 – \text{平均}^2 \\
\end{aligned} \]
となります。分散というのはつまり二乗の平均から平均の二乗を引いたものです。
さらに式を変形していきます。
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n x_i^2 – \text{平均}^2 \\
&= \frac{1}{n} \sum_{i=1}^n x_i^2 – \left( \frac{1}{n} \sum_{i=1}^n x_i \right)^2 \\
\end{aligned} \]
括弧の二乗を展開して、
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n x_i^2
– \frac{1}{n^2} \left( \sum_{i=1}^n x_i^2
+ 2 \sum_{i_1,i_2}^n x_{i_1} x_{i_2} \right) \\
\end{aligned} \]
ここで、
\[ \sum_{i_1,i_2}^n \]
というのは、\( n \)人から2人を抽出してそれを\( i_1 \)番目の人、\( i_2 \)番目の人として
\( \sum \) の右の式を、2人の組み合わせすべてで計算した合計を表すことにします。
\( \sum \) の右の式を \( \frac{n(n-1)}{2} \) 回計算することになります。
この書き方はあまり一般的ではないかもしれませんが他にいい書き方がわからなかったので、
こう書くことにします。
さらに変形していきますと、
\[ \begin{aligned}
\text{分散}
&= \frac{1}{n} \sum_{i=1}^n x_i^2
– \frac{1}{n^2} \sum_{i=1}^n x_i^2
– \frac{2}{n^2} \sum_{i_1,i_2}^n x_{i_1} x_{i_2} \\
&= \left( \frac{1}{n} – \frac{1}{n^2} \right) \sum_{i=1}^n x_i^2
– \frac{2}{n^2} \sum_{i_1,i_2}^n x_{i_1} x_{i_2} \\
&= \frac{n-1}{n^2} \sum_{i=1}^n x_i^2
– \frac{2}{n^2} \sum_{i_1,i_2}^n x_{i_1} x_{i_2} \\
\end{aligned} \]
となります。
この結果を踏まえて、改めて母集団の人数を\( N \)、標本の人数を\( n \)とすると、
次のようになります。ついでにこの後の議論に合わせて\( \sum \)の添字を変えておきます。
\[ \begin{aligned}
\text{母集団の分散}
&= \frac{N-1}{N^2} \sum_k^N x_k^2
– \frac{2}{N^2} \sum_{k_1,k_2}^N x_{k_1} x_{k_2}
\end{aligned} \]
\[ \begin{aligned}
\text{標本の分散}
&= \frac{n-1}{n^2} \sum_j^n x_j^2
– \frac{2}{n^2} \sum_{j_1,j_2}^n x_{j_1} x_{j_2}
\end{aligned} \]
\( N \)は日本の人口1億2千万で、\( n \)は抽出された人数30です。
本題の計算
で、問題に戻りまして、計算したいのは標本の分散の平均でした。
標本というのは全部で89…00(210桁の数)の数だけあるので、それぞれ分散を計算して、
その平均を求めたいのでした。
89…00(210桁の数)というのは、\( {}_N C_n \) と表されます。
\( N \)人の母集団から\( n \)人を抽出する組み合わせの数です。
その標本に1から89…00(210桁の数)までの番号を付けて、
\( \text{標本}_i \) のように表すことにします。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{1}{{}_N C_n} \sum_{i=1}^{{}_N C_n} \text{標本}_i\text{の分散} \\
\end{aligned} \]
先ほど求めた分散の式を代入します。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{1}{{}_N C_n} \sum_{i=1}^{{}_N C_n}
\left( \frac{n-1}{n^2} \sum_{j=1}^n x_{i,j}^2
– \frac{2}{n^2} \sum_{j_1,j_2}^n x_{i,j_1} x_{i,j_2} \right) \\
\end{aligned} \]
ここで、\( x_{i,j} \) は\( i \)番目の標本に含まれる\( j \)番目の人の身長です。
\[ \sum_{j_1,j_2}^n \]
というのは、先ほども似た形が出てきましたが、\( i \)番目の標本の\( n \)人から
2人を抽出してそれを\( j_1 \)番目の人、\( j_2 \)番目の人として
\( \sum \) の右の式を、2人の組み合わせすべてで計算した合計です。
次に括弧を展開します。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{1}{{}_N C_n} \frac{n-1}{n^2} \sum_{i=1}^{{}_N C_n} \sum_{j=1}^n x_{i,j}^2
– \frac{1}{{}_N C_n} \frac{2}{n^2} \sum_{i=1}^{{}_N C_n} \sum_{j_1,j_2}^n x_{i,j_1} x_{i,j_2} \\
\end{aligned} \]
各項で \( \sum \) が二重になっているのを1つずつに減らします。ここでは以下の2つの式を利用します。
\[ \begin{aligned}
\sum_{i=1}^{{}_N C_n} \sum_{j=1}^n f(x_{i,j})
&= {}_{N-1} C_{n-1} \sum_{k=1}^N f(x_k)
\end{aligned} \]
\[ \begin{aligned}
\sum_{i=1}^{{}_N C_n} \sum_{j_1, j_2}^n f(x_{i,j_1,}, x_{i,j_2})
&= {}_{N-2} C_{n-2} \sum_{k_1, k_2}^N f(x_{i,j_1,}, x_{i,j_2})
\end{aligned} \]
この2つの式の導出は込み入っているので最後に補足説明します。この式により、\( i \) と \( j \) の二重ループから \( k \) のループにに変形できます。\( k \) は母集団のループですので、1から1億2千万までです。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{1}{{}_N C_n} \frac{n-1}{n^2} {}_{N-1}C_{n-1} \sum_{k=1}^N x_k^2
– \frac{1}{{}_N C_n} \frac{2}{n^2} {}_{N-2}C_{n-2} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
\end{aligned} \]
\( {}_N C_n \) は、先ほどの繰り返しですが、\( N \)人から\( n \)を選び出すパターンの数で、
\[ {}_N C_n = \frac{N!}{n!(N-n)!} \]
です。これを代入すると、
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{n!(N-n)!}{N!} \frac{n-1}{n^2} \frac{(N-1)!}{(n-1)!(N-n)!} \sum_{k=1}^N x_k^2
– \frac{n!(N-n)!}{N!} \frac{2}{n^2} \frac{(N-2)!}{(n-2)!(N-n)!} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
\end{aligned} \]
ここから、分母分子を移動したり相殺して整理していくと、
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{n!}{N!} \frac{n-1}{n^2} \frac{(N-1)!}{(n-1)!} \sum_{k=1}^N x_k^2
– \frac{n!}{N!} \frac{2}{n^2} \frac{(N-2)!}{(n-2)!} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
&= \frac{n-1}{n^2} \frac{n!}{(n-1)!} \frac{(N-1)!}{N!} \sum_{k=1}^N x_k^2
– \frac{2}{n^2} \frac{n!}{(n-2)!} \frac{(N-2)!}{N!} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
&= \frac{n-1}{n^2} \frac{n}{1} \frac{1}{N} \sum_{k=1}^N x_k^2
– \frac{2}{n^2} \frac{n(n-1)}{1} \frac{1}{N(N-1)} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
&= \frac{n-1}{n} \frac{1}{N} \sum_{k=1}^N x_k^2
– \frac{n-1}{n} \frac{2}{N(N-1)} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
\end{aligned} \]
次は天下り的ですが、引き続き変形していきます。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{n-1}{n} \frac{1}{N} \left( \frac{N^2}{N-1} \frac{N-1}{N^2} \right) \sum_{k=1}^N x_k^2
– \frac{n-1}{n} \frac{2}{N(N-1)} \left( \frac{N^2}{2} \frac{2}{N^2} \right) \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
&= \frac{n-1}{n} \frac{N}{N-1} \frac{N-1}{N^2} \sum_{k=1}^N x_k^2
– \frac{n-1}{n} \frac{N}{N-1} \frac{2}{N^2} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
&= \frac{n-1}{n} \frac{N}{N-1} \left( \frac{N-1}{N^2} \sum_k^N x_k^2
– \frac{2}{N^2} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \right) \\
\end{aligned} \]
先に計算の準備で出てきた母集団の分散の式を再掲しておきます。
\[ \begin{aligned}
\text{母集団の分散}
&= \frac{N-1}{N^2} \sum_k^N x_k^2
– \frac{2}{N^2} \sum_{k_1,k_2}^N x_{k_1} x_{k_2} \\
\end{aligned} \]
これと見比べてみると、以下のようになります。
\[ \begin{aligned}
\text{標本の分散の平均}
&= \frac{n-1}{n} \frac{N}{N-1} \text{母集団の分散} \\
\end{aligned} \]
つまり、
\[ \begin{aligned}
\text{母集団の分散}
&= \frac{N-1}{N}\frac{n}{n-1} \text{標本の分散の平均} \\
\end{aligned} \]
母集団の数\( N \)は1億2千万といったとても大きな数を想定しているので、以下のように近似できます。
\[ \begin{aligned}
\text{母集団の分散}
&\approx \frac{n}{n-1} \text{標本の分散の平均} \\
&\approx \frac{n}{n-1} \frac{ \text{標本の身長から標本平均を引いた数の二乗の和} }{n} \\
&\approx \frac{ \text{標本の身長から標本平均を引いた数の二乗の和} }{n-1} \\
\end{aligned} \]
ということで、\(n-1\)で割る理由を理解できました。
\( N \)があまり大きくない場合は \( \frac{N-1}{N} \) という係数が必要なこともわかります。
※以下の補足説明は、二重の\( \sum \)を1つに減らす方法です。
読み飛ばす場合は、「最後に」にジャンプ。
補足説明
\( \sum \)二重ループを単純なループに変換する、以下の2つの式を説明します。
\[ \begin{aligned}
\sum_{i=1}^{{}_N C_n} \sum_{j=1}^n f(x_{i,j})
&= {}_{N-1} C_{n-1} \sum_{k=1}^N f(x_k)
\end{aligned} \]
\[ \begin{aligned}
\sum_{i=1}^{{}_N C_n} \sum_{j_1, j_2}^n f(x_{i,j_1,}, x_{i,j_2})
&= {}_{N-2} C_{n-2} \sum_{k_1, k_2}^N f(x_{k_1,}, x_{k_2})
\end{aligned} \]
\( N \) や \( n \) が大きいと説明しづらいので、ここでは仮に \( N=5, n=3 \) としておきます。
まずは1つ目から。
\[ \begin{aligned}
\sum_{i=1}^{{}_N C_n} \sum_{j=1}^n f(x_{i,j})
&= {}_{N-1} C_{n-1} \sum_{k=1}^N f(x_k)
\end{aligned} \]
\( f(x_{i,j}) \) の部分は、この記事では \( f(x_{i,j}) = x_{i,j}^2 \) として利用しました。
2つの \( \sum \) を1つに変形できることは、\( x_{i,j}^2 \) であることとは関係ありませんので、
ここでは一般化して \( f(x_{i,j}) \) としております。
左辺の1つ目の \( \sum \) は5人から3人を選ぶ組み合わせの数のループですので、
1から10までです。2つ目の \( \sum \) は1から3までのループです。
右辺の \( \sum \) は1から5までのループです。
\( x_{i,j} \) は\( i \)番目の標本に含まれる\( j \)番目の人の身長で、
\( i \) と \( j \) の2つのパラメータがありますが、
結局は5人の中のいずれかの人の身長ですので、
二重ループで足し合わせる要素を2次元の表に並べると以下のようになります。
\[
\begin{array}{cc}
f(x_1) & f(x_2) & f(x_3) \\
f(x_1) & f(x_2) & f(x_4) \\
f(x_1) & f(x_2) & f(x_5) \\
f(x_1) & f(x_3) & f(x_4) \\
f(x_1) & f(x_3) & f(x_5) \\
f(x_1) & f(x_4) & f(x_5) \\
f(x_2) & f(x_3) & f(x_4) \\
f(x_2) & f(x_3) & f(x_5) \\
f(x_2) & f(x_4) & f(x_5) \\
f(x_3) & f(x_4) & f(x_5) \\
\end{array} \]
5人から3人を選ぶ組み合わせの数が10ですので、縦に10並んでいます。
いったん二重ループであることを忘れて、同じ数字同士を縦に集めて整理すると、以下のようになります。
\[
\begin{array}{cc}
f(x_1) & f(x_2) & f(x_3) & f(x_4) & f(x_5) & \\
f(x_1) & f(x_2) & f(x_3) & f(x_4) & f(x_5) & \\
f(x_1) & f(x_2) & f(x_3) & f(x_4) & f(x_5) & \\
f(x_1) & f(x_2) & f(x_3) & f(x_4) & f(x_5) & \\
f(x_1) & f(x_2) & f(x_3) & f(x_4) & f(x_5) & \\
f(x_1) & f(x_2) & f(x_3) & f(x_4) & f(x_5) & \\
\end{array} \]
\( {}_{N-1} C_{n-1} = 6 \) ですので、この表は
右辺 \( {}_{N-1} C_{n-1} \sum_{k=1}^N f(x_k) \) そのものです。
二重ループはとても複雑なことをしていそうですが、
結局は5人の身長の合計を6倍しただけというイメージが湧きますでしょうか。
2つ目の表がこの例では縦に6並んでいましたが、これが一般的には \( {}_{N-1} C_{n-1} \) 並ぶことを
示せば、\( \sum \) を1つにする式の説明がつくことになります。
1つ目の表は、縦に \( {}_N C_n \)、横に \( n \) 並べたものでした。
合計で \( {}_N C_n n \) の要素があることになります。
これを2つ目の表に並べ替えると、横は \( N \) ありますので、縦は
\[ \begin{aligned}
\text{縦の数}
&= \frac{ {}_N C_n n }{N} \\
\end{aligned} \]
の数だけあることになります。これを整理すると、
\[ \begin{aligned}
\text{縦の数}
&= {}_N C_n \frac{n}{N} \\
&= \frac{N!}{n!(N-n)!} \frac{n}{N} \\
&= \frac{(N-1)!}{(n-1)!(N-n)!} \\
&= {}_{N-1} C_{n-1} \\
\end{aligned} \]
これで1つ目の式を示すことができました。
これは厳密な証明ではなく、なんとなくの説明です。
厳密な証明は帰納法などで示せるかもしれませんが、
証明をしたかったのではなく理解したかっただけなので、
試していないです。
さて、次は2つ目の式です。
\[ \begin{aligned}
\sum_{i=1}^{{}_N C_n} \sum_{j_1, j_2}^n f(x_{i,j_1,}, x_{i,j_2})
&= {}_{N-2} C_{n-2} \sum_{k_1, k_2}^N f(x_{k_1,}, x_{k_2})
\end{aligned} \]
\( f(x_{i,j_1}, x_{i,j_2}) \) の部分は、
この記事では \( f(x_{i,j_1}, x_{i,j_2}) = x_{i,j_1} x_{i,j_2} \) として利用しましたが、
同様にそんなことはここでも関係ないので、
一般化して、\( f(x_{i,j_1}, x_{i,j_2}) \) としております。
この式の左辺を表で書くと以下のようになります。
\[
\begin{array}{cc}
f(x_1, x_2) & f(x_1, x_3) & f(x_2, x_3) \\
f(x_1, x_2) & f(x_1, x_4) & f(x_2, x_4) \\
f(x_1, x_2) & f(x_1, x_5) & f(x_2, x_5) \\
f(x_1, x_3) & f(x_1, x_4) & f(x_3, x_4) \\
f(x_1, x_3) & f(x_1, x_5) & f(x_3, x_5) \\
f(x_1, x_4) & f(x_1, x_5) & f(x_4, x_5) \\
f(x_2, x_3) & f(x_2, x_4) & f(x_3, x_4) \\
f(x_2, x_3) & f(x_2, x_5) & f(x_3, x_5) \\
f(x_2, x_4) & f(x_2, x_5) & f(x_4, x_5) \\
f(x_3, x_4) & f(x_3, x_5) & f(x_4, x_5) \\
\end{array} \]
5人から3人を選ぶ組み合わせの数が10ですので、縦に10並び、
3人から2人を選ぶ組み合わせの数が3ですので、横に3並びます。
これらの要素を整理しますと、以下のようになります。
\[
\begin{array}{cc}
f(x_1, x_2) & f(x_1, x_3) & f(x_1, x_4) & f(x_1, x_5) & f(x_2, x_3) & f(x_2, x_4) & f(x_2, x_5) & f(x_3, x_4) & f(x_3, x_5) & f(x_4, x_5) \\
f(x_1, x_2) & f(x_1, x_3) & f(x_1, x_4) & f(x_1, x_5) & f(x_2, x_3) & f(x_2, x_4) & f(x_2, x_5) & f(x_3, x_4) & f(x_3, x_5) & f(x_4, x_5) \\
f(x_1, x_2) & f(x_1, x_3) & f(x_1, x_4) & f(x_1, x_5) & f(x_2, x_3) & f(x_2, x_4) & f(x_2, x_5) & f(x_3, x_4) & f(x_3, x_5) & f(x_4, x_5) \\
\end{array} \]
5人から2人を選ぶ組み合わせの数が10ですので、横に10並んでおり、
\( \sum_{k_1, k_2}^N \) を表しています。
さきほどの表と比べて大きさが縦横入れ替わっただけのように見えますが、
\( N=5, n=3 \) の例で偶然そのようになっただけです。
\( {}_{N-2} C_{n-2} = 3 \) で縦の大きさと一致しますので、この表は
右辺 \( {}_{N-2} C_{n-2} \sum_{k_1, k_2}^N f(x_{k_1,}, x_{k_2}) \) そのものです。
1つ目の表は、縦に \( {}_N C_n \)、横に \( {}_n C_2 \) 並べたものでした。
2つの表の要素の数は同じはずで、
2つ目の表は、横に \( {}_N C_2 \) ありますので、縦は以下のように計算できます。
\[ \begin{aligned}
\text{縦の数}
&= \frac{ {}_N C_n \ {}_n C_2 }{ {}_N C_2 } \\
&= {}_N C_n \ {}_n C_2 \frac{1}{ {}_N C_2 } \\
&= \frac{N!}{n!(N-n)!} \frac{n!}{2!(n-2)!} \frac{2!(N-2)!}{N!} \\
&= \frac{(N-2)!}{(N-n)!(n-2)!} \\
&= {}_{N-2} C_{n-2} \\
\end{aligned} \]
これで\( \sum \)二重ループの変換式を説明することができました。
最後に
母集団の分散を標本分散から計算するには、以下の式になることがわかりました。
\[ \begin{aligned}
\text{母集団の分散}
&\simeq \frac{N-1}{N}\frac{n}{n-1} \text{標本の分散} \\
\end{aligned} \]
\( N \)は母集団の要素の個数(母数)、\( n \)は標本の要素の個数です。
\( \simeq \) は推測の意味で使っています。
普通は母集団はとても大きいので、一般的に使われる以下の式で計算できます。
\[ \begin{aligned}
\text{母集団の分散}
&\simeq \frac{n}{n-1} \text{標本の分散} \\
\end{aligned} \]
この式は、標本の分散の平均を計算することで導けることがわかりました。
数式が多くて長い記事でしたので、最後まで読む人はほとんどいないでしょうが、
もっといい方法があればぜひアドバイスください。では。
標本の分散=(標本平均からの残差)の2乗和を標本数で割ったもの
母分散=(母平均からの残差)の2乗和を標本数で割ったもの
標本平均と母平均の差=(母平均からの残差)を標本数で割ったもの
標本平均の定義
を組み合わせて、母平均を消去すると、
母分散と標本分散の関係が導かれる
鈴木健一さん
とてもわかりやすい説明で助かりました。
途中式を省略していないので、躓かずに最後まで読み通すことができました。
また今回の記事で、次の2点がはっきりしたので、
『母分散=N x (n-1) /(N-1) x n x 標本分散の平均』・・・①は成り立つが
『母分散=N x (n-1) /(N-1) x n x 標本分散』・・・② は成り立たない
標本の大きさによって区間推定の式が異なる理由が、おぼろげながらつかめてきました
—————————————
母平均の区間推定を以下の条件で行うとき
・母分散がわかっていない
・母集団が正規分布に従っている
・信頼度95%
信頼区間 = 標本平均 ± {1.96 x sqrt(標準分散/n)}・・・③
信頼区間 = 標本平均 ± {t x sqrt(標準分散/n)}・・・④
(tはnによって異なる。例:2.776(n=7), 2.048(n=28))
というように、標本の大きさによって違った式になっているが、
実は
信頼区間 = 標本平均 ± {1.96 x sqrt(標準分散の平均/n)} ・・・⑤
が一般に成り立つ式なのであり、
③はnが大きいために、標準分散が標準分散の平均と近似的に等しくなるために成立していて、
④はnが小さいために、標準分散と標準分散の平均が違ってくるために、式を修正してある、のではないだろうか?
————————————-
この度は大変お世話になりました!
また、新たな発見がありましたら掲載をお願いします。
統計の勉強を始めてこのサイトを見つけて勉強させてもらいました。
ありがとうございます。
自由度に関してはご参考になればと思いコメントさせていただきます。
分散とは、ある基準点からすべてのサンプルへの距離の二乗を足しあげたものとします。
仮にある基準点を一番小さなサンプルとすると、足すべき距離の二乗の数は、当然n-1になります。
このように差分の計算なので外部基準を使わない限りサンプル全体をどこかに固定するのに自由度を一つ失います。
基準点を特定のサンプルにする場合が最もわかりやすく、n-1個の差分を計算することになり、差分ひとつあたりの
数値(平均値=不偏分散)は、分散をn-1で割った値になります。
もっと平たく言うとサンプル1個では差分は計算できません。2個だと1つの差分が計算できます。3個だと2つの差分です。
基準点を平均値にすると差分の計算自体は、見かけ上n個現れますが、平均値を持つサンプルがたまたまあった場合を考えると、n-1個の差分であり、この場合の一般化(オフセットの処理)と考えたほうが、わかりやすいのではと思います。
ただ、この一般化が気持ち悪いのかもしれませんね。
母分散は標本数nとは無関係ではないですか?関係させるためには何らかの仮説が必要だと思います。