上野竜生です。以前は数Cに統計が,最近では数Bに選択で統計がありますが今後は必修になるとのうわさもあります。今回は統計の中でもおそらく最後に扱うであろう推定について書いていきます。
言葉の意味を理解しよう
調査全体の集団を母集団といいます。母集団の平均を母平均,母集団の標準偏差を母標準偏差といいます。母集団全体を調査できるときはいいですがたとえば母集団が1億人とかだと全部調査するのは大変です。そこで母集団の中から一部の資料を抽出します。抽出された集団を標本といい,それらの平均や標準偏差をそれぞれ標本平均,標本標準偏差といいます。
たとえば日本人(人口はわかりやすく1億人にします)全体で○○が好きな割合を調査したいとして1億人に聞くのは大変だから100人でいいっかという風にまず少しだけ調査します。100人の平均が標本平均ですが標本平均のデータから母平均を推定することはできないかと考えます。
標本平均をそのまま母平均と考えたいですが多少誤差はあるでしょう。たとえば
1億人中Aが好きな割合を調べたいが面倒なので自分1人にアンケートをした結果1人中1人がAを好きだと答えたから1億人すべてがAを好きである。
とは考えにくいです。一方で100人中100人だったら多少はマシになるでしょう。
それはどうしてかというと1人の平均から1億人の平均を出す誤差より100人の平均から1億人の平均を出す誤差のほうが明らかに小さいからです。(これを明らかと思えると公式が楽に覚えられます)
標本平均から母平均を確実に求めることはできませんのである程度誤差を含めて求めます。100%当たるように確実に範囲を求めろ!と言われたら普通はマイナス無限大~無限大というしかありません。しかし99%の確率で当たるように求めろ!と言われたら意外と範囲は狭くなります。その「99%の確率で当たる区間」を求めようというのが今回の問題です。
暗黙の了解として99%といえばちょうど真ん中50%のところを平均として±49.5%のことです。つまり小さすぎる方の0.5%と大きすぎる方の0.5%を切り捨てた99%です。理論的には偏りがある99%もとれますが推定するときは特別指示がない限り99%信頼区間を求めるといえばちょうど真ん中±49.5%の範囲を求めることになります。95%や90%でも同様です。
いきなり信頼区間を求めるのは難しいので基本事項をおさらいします。
基本事項
母平均m,母標準偏差σの母集団から大きさn(つまり、n個)の無作為標本を抽出する。
このとき標本平均の期待値はm,標準偏差は\(\displaystyle \frac{\sigma}{\sqrt{n}}\)
母比率p,大きさnの無作為標本の標本比率をRとする。
標本比率Rの期待値はp,標準偏差は\(\displaystyle \sqrt{\frac{p(1-p)}{n}}\)
要は「ちょうど真ん中」を表す平均は母平均も標本平均も同じです。100人中28人がYESと答えたアンケートであれば10000人だったらYESの人数は2800人が基準となりそこから±49.5%の範囲を求めることになります。あとは誤差を表す標準偏差のほうが大事です。先ほど人数が多いほど誤差は明らかに小さいといいましたがnが大きくなるほど標準偏差は小さくなるということが重要です。
この式を詳しく解説するとそれだけで1ページになるぐらい大変なので大雑把に説明すると
1個の母標準偏差がσ
→1個の母分散はσ2
→「n個の和」の分散はnσ2 (∵AとBが独立ならA+Bの分散はAの分散とBの分散の和)
→「n個の平均」の分散は\( \frac{n\sigma^2}{n^2} \) (∵(aA)の分散はAの分散のa2倍)
→「n個の平均」の標準偏差は\( \frac{\sigma}{\sqrt{n}}\)
比率の方はYesと答えるかNoと答えるかの二項分布なので「n個の和」の分散はnp(1-p)。あとは平均と同様です。
推定
母平均の推定
今まで99%信頼区間といいましたが問題では95%も良くでます。同様なので2つまとめて説明します。
母平均mを信頼度95%や99%で推定する。
このとき95%信頼区間は
\(\displaystyle \left[\bar{X}-1.96\frac{\sigma}{\sqrt{n}} , \bar{X}+1.96\frac{\sigma}{\sqrt{n}}\right]\)
であり,99%信頼区間は
\(\displaystyle \left[\bar{X}-2.58\frac{\sigma}{\sqrt{n}} , \bar{X}+2.58\frac{\sigma}{\sqrt{n}}\right]\)
である。ただし\( \bar{X}\)は標本平均,σは母標準偏差である。
問題文で母標準偏差が与えられておらず標本標準偏差が計算できそうなときはnが大きければσを標本標準偏差として問題ない。
ちょうど真ん中を中心に±49.5%(±47.5%)なので標本平均±Aの形になることはわかりますね。実はAは先ほどの基本事項の標準偏差に比例し,その係数は95%信頼区間のとき1.96,99%信頼区間のとき2.58になります。これを説明すると長いので覚えておきましょう。1.96や2.58を求める計算式もありますが複雑な積分で手計算では不可能なので覚えるしかありません。
なお,1.96や2.58という数字は問題によっては正規分布表から読み取らせる問題もよくあると思いますがとりあえず覚えておけば時間短縮でいいでしょう。
母比率の推定
母比率pを信頼度95%や99%で推定する。このとき95%信頼区間は
\(\displaystyle \left[R-1.96\sqrt{\frac{R(1-R)}{n}} , R+1.96\sqrt{\frac{R(1-R)}{n}}\right]\)
であり,99%信頼区間は
\(\displaystyle \left[R-2.58\sqrt{\frac{R(1-R)}{n}} , R+2.58\sqrt{\frac{R(1-R)}{n}}\right]\)
である。ただしRは標本比率である。
ほとんど同じです。ただし標準偏差のところのpがRになっています。これは本当はpのほうがいいと思いますがpだと計算が大変だし誤差はほぼないだろうからRで近似してもいいよ,というぐらいに思ってください。
長くなったので各1問ずつ例題を出して終わります。
例題
答え\(\displaystyle \left[60.2-1.96\frac{3.4}{\sqrt{100}} , 60.2+1.96\frac{3.4}{\sqrt{100}}\right]\)
\( \displaystyle 1.96 \frac{3.4}{\sqrt{100}}=0.6664 \)より
[60.2-0.6664 , 60.2+0.6664]=[59.5336,60.8664]=[59.5,60.9]
\( \displaystyle 2\cdot 2.58 \sqrt{\frac{R(1-R)}{n}} \)これが3%,つまり0.03以下だからR=0.36を代入すると
\( \displaystyle 2\cdot 2.58 \sqrt{\frac{0.36 \cdot 0.64}{n}}\leq 0.03 \)計算すると\( \displaystyle 5.16 \frac{0.48}{\sqrt{n}} \leq 0.03\)\( \frac{2.4768}{0.03} \leq \sqrt{n} \)
\( n \geq 82.56^2=6816.1536 \)
nは整数だから6817人以上であればよい。
解説を読んで数学がわかった「つもり」になりましたか?数学は読んでいるうちはわかったつもりになりますが演習をこなさないと実力になりません。そのためには問題集で問題を解く練習も必要です。オススメの参考書を厳選しました
<高校数学>上野竜生です。数学のオススメ参考書などをよく聞かれますのでここにまとめておきます。基本的にはたくさん買うよりも…
上野竜生です。大学数学の参考書をまとめてみました。フーリエ解析以外は自分が使ったことある本から選びました。 大…
上野竜生です。当サイトでも少し前まで各ページで学習サイトをオススメしていましたが他にもオススメできるサイトはた…