当サイトは、PRを含む場合があります。

上野竜生です。母分散が既知のときの信頼区間の求め方は学習しましたが,実際には母平均がわかってないのに母分散だけわかっていることなどあまりありません。今回は母分散が未知のときの母平均の信頼区間の求め方を紹介します。

復習

データの大きさがnで,標本平均が\(\bar{X} \)であり,母分散\(\sigma^2 \)がわかっているときの信頼区間は
\( \displaystyle \left[ \bar{X}-\alpha \sqrt{\frac{\sigma^2}{n}} , \bar{X}+\alpha \sqrt{ \frac{\sigma^2}{n}} \right] \)
ただしαは正規分布表から得られる数字。○%信頼区間の○の数字のみに依存し,95%信頼区間ならα=1.96)

広告

母分散が未知のとき

単純な考えとしては\(\sigma \)のところを標本から得られる分散に置き換えてそれで終わり,としたいところですが残念ながら少し違います。でも2箇所変えるだけです。

まず分散のところの\(\sigma^2 \)のところは不偏分散\( s^2 \)に置き換えます。通常の分散は「(各データの値ー平均)の2乗の和」をデータの数nで割りますが,不偏分散は最後nで割るところを(n-1)で割ります。つまり
\(\displaystyle s^2= \frac{1}{n-1} \{ (x_1-\bar{X})^2+(x_2-\bar{X})^2+\cdots +(x_n - \bar{X})^2\} \)
になります。なぜ不偏分散なのかの証明は教科書などに任せることにします。

あとはαの部分も変えます。正規分布から得られる数字ではなくt分布から得られる数字を使います。t分布は○%信頼区間の○の数字だけでなく,自由度(=データの大きさ マイナス 1)にも依存します。

データの大きさが十分大きい(大体30以上)なら正規分布とほぼ同じなので正規分布表から得てもそれほど問題はないでしょう。データが~10個ぐらいのときは正規分布とは少し誤差があります。t分布から値を得ましょう。

要は母分散が分かってたとき用のうまい関数が正規分布表から得られる1.96とかだったのに対し,母分散が分かってないときはt分布という別の分布から得られる値を使うということです。

t分布表の見方

自由度がvであるt分布で,灰色の面積がαとなるtの値を表にまとめたものです。
正規分布の時は0.01刻みのtの値に対しαが1個1個書かれていました。tからαを得る表を逆に利用して得ていました。2変数もあるt分布でそんなに細かく書いたら紙がいくらあっても足りません。そこでαは代表的な値のみ書かれることが多いですしαからtの値を得る表を素直に読む形になります。

図のピンクの面積がαのときの「↑」とかかれた部分の値を表にしたものです。

t分布

α=0.1 α=0.05 α=0.025 α=0.01
v=1 3.078 6.314 12.706 31.821
v=2 1.886 2.920 4.303 6.965
v=3 1.638 2.353 3.182 4.541
4 1.533 2.132 2.776 3.747
5 1.476 2.015 2.571 3.365
6 1.440 1.943 2.447 3.143
7 1.415 1.895 2.365 2.998
8 1.397 1.860 2.306 2.896
9 1.383 1.833 2.262 2.821
10 1.372 1.812 2.228 2.764
11 1.363 1.796 2.201 2.718
12 1.356 1.782 2.179 2.681
13 1.350 1.771 2.160 2.650
14 1.345 1.761 2.145 2.624
15 1.341 1.753 2.131 2.602

一般のやり方をダラダラ書いても理解しにくいと思うので具体的な問題で確認しましょう。(1)~(3)は本質ではないのであえて解く必要はないでしょう。(4)を頑張って解いてみてください。

広告

例題

ある学年から10人の体重を調べた結果
45,50,53,58,61,63,64,72,88,106(kg)
となった。
(1)10人の平均と分散を求めよ。
(2)母分散が(1)で求めた分散だと分かっている場合,母平均の95%信頼区間を求めよ。
(3)母分散が300,360だと分かっていた場合の母平均の95%信頼区間をそれぞれ求めよ。
(4)母分散がわからない場合の母平均の95%信頼区間を求めよ。t分布表は上にあるものを使ってください。
(注)電卓を使って計算してよい。正規分布表から1.96を読み取る部分は省略しています。小数第二位を四捨五入して小数第1位まで答えること。
答え(1)10人の体重の合計は
45+50+53+58+61+63+64+72+88+106=660
よって平均は66
分散は
\(\displaystyle \frac{1}{10} \{ (45-66)^2+(50-66)^2+\cdots + (106-66)^2 \} \\ = \frac{1}{10}(441+256+169+64+25+9+4+36+484+1600 ) \\ = \frac{3088}{10}=308.8 \)
(2)信頼区間の公式から
\(\displaystyle \left[ 66- 1.96\cdot \frac{\sqrt{308.8}}{\sqrt{10}} , 66+ 1.96\cdot \frac{\sqrt{308.8}}{\sqrt{10}} \right] \\ = [55.11,76.89]=[55.1,76.9] \)
(3)母分散300のとき
\(\displaystyle \left[ 66- 1.96\cdot \frac{\sqrt{300}}{\sqrt{10}} , 66+ 1.96\cdot \frac{\sqrt{300}}{\sqrt{10}} \right] \\ = [55.255,76.735]=[55.3,76.7] \)
母分散360のとき
\(\displaystyle \left[ 66- 1.96\cdot \frac{\sqrt{360}}{\sqrt{10}} , 66+ 1.96\cdot \frac{\sqrt{360}}{\sqrt{10}} \right] \\ = [54.24,77.76]=[54.2,77.8] \)
(4)不偏分散\( s^2\)は
\(\displaystyle s^2=\frac{1}{10-1} \{ (45-66)^2+(50-66)^2+\cdots + (106-66)^2 \} \\ \displaystyle = \frac{3088}{9}=343.11 \)
自由度9のt分布から上側2.5%点を読み取ると2.262。よって
\(\displaystyle \left[ 66- 2.262\cdot \frac{\sqrt{343.11}}{\sqrt{10}} , 66+ 2.262 \cdot \frac{\sqrt{343.11}}{\sqrt{10}} \right] \\ = [52.7502,79.2498]=[52.8,79.2] \)

母分散未知の信頼区間の特長

・母分散未知の場合は母分散既知の場合より信頼区間の幅は広がる。((2)~(4)の答えを見比べてみてください)
・相変わらず信頼度をあげれば信頼区間の幅は広がるし,データのサイズnを増やせば信頼区間の幅は狭くなる。しかし,母分散既知のときのように,nを4倍,9倍にすれば幅が2分の1,3分の1になるというわけではない。(nを増やせばt分布から得られる値も変わる)

2か所やることが増えるだけなので母分散既知の信頼区間をマスターしてる人ならそれほど苦戦しないと思います。全然理解できない人はそこから復習してみましょう。

あわせて読みたい

解説を読んで数学がわかった「つもり」になりましたか?数学は読んでいるうちはわかったつもりになりますが演習をこなさないと実力になりません。そのためには問題集で問題を解く練習も必要です。オススメの参考書を厳選しました

<高校数学> <大学数学> さらにオススメの塾、特にオンラインの塾についてまとめてみました。自分一人だけでは自信のない人はこちらも参考にすると成績が上がります。