統計(高校範囲の推定のやり方)

上野竜生です。以前は数Cに統計が,最近では数Bに選択で統計がありますが今後は必修になるとのうわさもあります。今回は統計の中でもおそらく最後に扱うであろう推定について書いていきます。

高校の統計(推定)

スポンサーリンク

言葉の意味を理解しよう

調査全体の集団を母集団といいます。母集団の平均を母平均,母集団の標準偏差を母標準偏差といいます。母集団全体を調査できるときはいいですがたとえば母集団が1億人とかだと全部調査するのは大変です。そこで母集団の中から一部の資料を抽出します。抽出された集団を標本といい,それらの平均や標準偏差をそれぞれ標本平均標本標準偏差といいます。

たとえば日本人(人口はわかりやすく1億人にします)全体で○○が好きな割合を調査したいとして1億人に聞くのは大変だから100人でいいっかという風にまず少しだけ調査します。100人の平均が標本平均ですが標本平均のデータから母平均を推定することはできないかと考えます。

標本平均をそのまま母平均と考えたいですが多少誤差はあるでしょう。たとえば

1億人中Aが好きな割合を調べたいが面倒なので自分1人にアンケートをした結果1人中1人がAを好きだと答えたから1億人すべてがAを好きである。

とは考えにくいです。一方で100人中100人だったら多少はマシになるでしょう。

それはどうしてかというと1人の平均から1億人の平均を出す誤差より100人の平均から1億人の平均を出す誤差のほうが明らかに小さいからです。(これを明らかと思えると公式が楽に覚えられます)

標本平均から母平均を確実に求めることはできませんのである程度誤差を含めて求めます。100%当たるように確実に範囲を求めろ!と言われたら普通はマイナス無限大~無限大というしかありません。しかし99%の確率で当たるように求めろ!と言われたら意外と範囲は狭くなります。その「99%の確率で当たる区間」を求めようというのが今回の問題です。

暗黙の了解として99%といえばちょうど真ん中50%のところを平均として±49.5%のことです。つまり小さすぎる方の0.5%と大きすぎる方の0.5%を切り捨てた99%です。理論的には偏りがある99%もとれますが推定するときは特別指示がない限り99%信頼区間を求めるといえばちょうど真ん中±49.5%の範囲を求めることになります。95%や90%でも同様です。

いきなり信頼区間を求めるのは難しいので基本事項をおさらいします。

基本事項

母平均m,母標準偏差σの母集団から大きさn(つまり、n個)の無作為標本を抽出する。
このとき標本平均の期待値はm,標準偏差は\(\displaystyle \frac{\sigma}{\sqrt{n}}\)

母比率p,大きさnの無作為標本の標本比率をRとする。
標本比率Rの期待値はp,標準偏差は\(\displaystyle \sqrt{\frac{p(1-p)}{n}}\)

要は「ちょうど真ん中」を表す平均は母平均も標本平均も同じです。100人中28人がYESと答えたアンケートであれば10000人だったらYESの人数は2800人が基準となりそこから±49.5%の範囲を求めることになります。あとは誤差を表す標準偏差のほうが大事です。先ほど人数が多いほど誤差は明らかに小さいといいましたがnが大きくなるほど標準偏差は小さくなるということが重要です。

この式を詳しく解説するとそれだけで1ページになるぐらい大変なので大雑把に説明すると

1個の母標準偏差がσ
→1個の母分散はσ2
→「n個の和」の分散はnσ2 (∵AとBが独立ならA+Bの分散はAの分散とBの分散の和)
→「n個の平均」の分散は\( \frac{n\sigma^2}{n^2} \) (∵(aA)の分散はAの分散のa2倍)

→「n個の平均」の標準偏差は\( \frac{\sigma}{\sqrt{n}}\)

比率の方はYesと答えるかNoと答えるかの二項分布なので「n個の和」の分散はnp(1-p)。あとは平均と同様です。

推定

母平均の推定

今まで99%信頼区間といいましたが問題では95%も良くでます。同様なので2つまとめて説明します。

母平均mを信頼度95%や99%で推定する。

このとき95%信頼区間は

\(\displaystyle \left[\bar{X}-1.96\frac{\sigma}{\sqrt{n}} , \bar{X}+1.96\frac{\sigma}{\sqrt{n}}\right]\)

であり,99%信頼区間は

\(\displaystyle \left[\bar{X}-2.58\frac{\sigma}{\sqrt{n}} , \bar{X}+2.58\frac{\sigma}{\sqrt{n}}\right]\)

である。ただし\( \bar{X}\)は標本平均,σは母標準偏差である。

問題文で母標準偏差が与えられておらず標本標準偏差が計算できそうなときはnが大きければσを標本標準偏差として問題ない。

ちょうど真ん中を中心に±49.5%(±47.5%)なので標本平均±Aの形になることはわかりますね。実はAは先ほどの基本事項の標準偏差に比例し,その係数は95%信頼区間のとき1.96,99%信頼区間のとき2.58になります。これを説明すると長いので覚えておきましょう。1.96や2.58を求める計算式もありますが複雑な積分で手計算では不可能なので覚えるしかありません。

なお,1.96や2.58という数字は問題によっては正規分布表から読み取らせる問題もよくあると思いますがとりあえず覚えておけば時間短縮でいいでしょう。

母比率の推定

母比率pを信頼度95%や99%で推定する。このとき95%信頼区間は
\(\displaystyle \left[R-1.96\sqrt{\frac{R(1-R)}{n}} , R+1.96\sqrt{\frac{R(1-R)}{n}}\right]\)

であり,99%信頼区間は

\(\displaystyle \left[R-2.58\sqrt{\frac{R(1-R)}{n}} , R+2.58\sqrt{\frac{R(1-R)}{n}}\right]\)

である。ただしRは標本比率である。

ほとんど同じです。ただし標準偏差のところのpがRになっています。これは本当はpのほうがいいと思いますがpだと計算が大変だし誤差はほぼないだろうからRで近似してもいいよ,というぐらいに思ってください。

長くなったので各1問ずつ例題を出して終わります。

例題

例題1 ある地方で男子100人の体重を測ったところ平均60.2kg,標準偏差3.4kgであった。この地方の男子の体重の平均値を95%の信頼度で推定せよ。

答え\(\displaystyle \left[60.2-1.96\frac{3.4}{\sqrt{100}} , 60.2+1.96\frac{3.4}{\sqrt{100}}\right]\)

\( \displaystyle 1.96 \frac{3.4}{\sqrt{100}}=0.6664 \)より

[60.2-0.6664 , 60.2+0.6664]=[59.5336,60.8664]=[59.5,60.9]

問題文の値が小数第1位までなので答えも小数第1位までになるように四捨五入するのが普通です。
例題2 ある地方では血液型がA型の割合が36%であることが知られている。ここから無作為にn人を選ぶとき血液型がA型の割合を信頼度99%で推定したい。信頼区間の幅を3%以下にするにはnは何人以上であればよいか。
答え信頼区間の幅は
\( \displaystyle 2\cdot 2.58 \sqrt{\frac{R(1-R)}{n}} \)これが3%,つまり0.03以下だからR=0.36を代入すると
\( \displaystyle 2\cdot 2.58 \sqrt{\frac{0.36 \cdot 0.64}{n}}\leq 0.03 \)計算すると\( \displaystyle 5.16 \frac{0.48}{\sqrt{n}} \leq 0.03\)

\( \frac{2.4768}{0.03} \leq \sqrt{n} \)

\( n \geq 82.56^2=6816.1536 \)

nは整数だから6817人以上であればよい。

こちらは四捨五入するより不等式を満たす整数の範囲で答えるほうがいいでしょう。

数学はもちろん他の科目も勉強できる「スタディサプリ」なら人気講師の授業動画で、塾にいかなくてもまるで塾にいったかのような勉強ができます。塾と比較すると格安で、しかも無料おためしもできます。当サイトオススメのサイトです。


スタディサプリについて解説したページはこちら
スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする