広告

上野竜生です。今回は共通テスト数IIBで,統計の分野に挑戦する人に向けて,確率の平均・分散・標準偏差の求め方と二項分布を紹介します。共通テストにも頻出ですし,大学に入ってからの統計のテストにも出るので大学生にもオススメです。

離散型

確率の基本

Xがx1,x2,・・・,xnのいずれかの値をとる変数であるとする。Xを確率変数という。
X=xkとなる確率をP(X=xk)またはpkと表す。

\begin{array}{c|cccc} X & x_1 & x_2 & \cdots & x_n \\ \hline P & p_1 & p_2 & \cdots & p_n \end{array}

確率分布という。

確率の定義より次が成り立つ。
・p1≧0,p2≧0,・・・pn≧0 :どの確率も0以上(1以下)
・p1+p2+・・・+pn=1 :全確率の和は1

平均E(X)は次のように表される
・\( E(X)=x_1p_1+x_2p_2+\cdots +x_np_n \)
分散V(X)は次のようにあらわされる
・\( V(X)=(x_1-E(X))^2 p_1+\cdots +(x_n-E(X))^2 p_n \)

\(E(X^2)=x_1^2 p_1+x_2^2 p_2+\cdots +x_n^2 p_n\)とするとき
\(V(X)=E(X^2)-\{E(X)\}^2 \)

標準偏差σ(X)は\( \sqrt{V(X)} \)

ここまでは数Iで習うデータの分析とほとんど変わらないと思います。なので早速例題を解いてみましょう。

広告

例題1

ある一定の確率で0点または10点または30点が得られるゲームがある。得点と確率の確率分布は下の表で表されるとする。
\begin{array}{c|cccc} 得点 & 0 & 10 & 30 \\ \hline 確率 & a & \frac{1}{2} & \frac{1}{3} \end{array}
(1) aの値を求めよ
(2) 得点の平均と分散,標準偏差を求めよ。
答え(1)確率の合計は1だから
\( a+\frac{1}{2}+\frac{1}{3}=1 \)
よって\( a=\frac{1}{6} \)
(2)平均は
\(\displaystyle E(X)=0\cdot \frac{1}{6} + 10\cdot \frac{1}{2} + 30 \cdot \frac{1}{3} =15\)
分散は
\( V(X)=(0-15)^2 \cdot \frac{1}{6} + (10-15)^2 \cdot \frac{1}{2} + (30-15)^2 \cdot \frac{1}{3} \\ = \displaystyle \frac{225}{6}+\frac{25}{2}+75=125 \)
<別解>
\(\displaystyle E(X^2)=0^2 \cdot \frac{1}{6} + 10^2 \cdot \frac{1}{2} +30^2 \cdot \frac{1}{3} \\ = 50+300=350 \)
\( V(X)=E(X^2)-E(X)^2=350-15^2=125 \)
標準偏差は
\( \sigma (X) = \sqrt{V(X)} = \sqrt{125}=5\sqrt{5} \)
平均±標準偏差を計算して違和感がないか確かめてみましょう。今回だと\( 5\sqrt{5} \)≒11.2として
15±11.2は3.8から26.2です。今回の確率変数は0から30までなのでそれと比較しても常識的な範囲に入っていますね。平均±標準偏差の2つの値(今回だと3.8,26.2)が両方とも確率変数の最大値超えor最小値未満であればミスしていると思っておきましょう。

例題2

サイコロを2回投げて出た目の和の一の位を得点Xとするとき,P(1≦X≦3)を求めよ。また,得点の平均と分散を求めよ。

確率分布表を自分で作らなければいけないタイプです。
サイコロを2回投げて出た目の和とその確率の表は

\begin{array}{ccccccccccc} 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \\ \hline \frac{1}{36} & \frac{2}{36} & \frac{3}{36} & \frac{4}{36} & \frac{5}{36} & \frac{6}{36} & \frac{5}{36} & \frac{4}{36} & \frac{3}{36} & \frac{2}{36} & \frac{1}{36}  \end{array}

なので一の位ごとにまとめると確率分布は

\begin{array}{cccccccccc} 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9  \\ \hline \frac{3}{36} & \frac{2}{36} & \frac{2}{36} & \frac{2}{36} & \frac{3}{36} & \frac{4}{36} & \frac{5}{36} & \frac{6}{36} & \frac{5}{36} & \frac{4}{36}   \end{array}

となります。
あとはこれを見ながら計算すればOKです。

答え\( P(1 \leq X \leq 3)= \frac{2}{36}+\frac{2}{36}+\frac{2}{36}=\frac{1}{6} \)
平均E(X)は
\( \displaystyle E(X)=\frac{2+4+6+12+20+30+42+40+36}{36} \\ \displaystyle =\frac{192}{36}=\frac{16}{3} \)
\( \displaystyle E(X^2)=\frac{2+8+18+48+100+180+294+320+324}{36} \\ \displaystyle = \frac{1294}{36} \)
分散V(X)は
\(\displaystyle V(X)=\frac{1294}{36} - \frac{32^2}{36} = \frac{270}{36} = \frac{15}{2} \)
(標準偏差は\(\displaystyle \sqrt{\frac{15}{2}} = \frac{\sqrt{30}}{2} \) )

この例だと最初の定義通りV(X)を計算する方法は計算が面倒になりますね。基本的にV(X)は
\(V(X)=E(X^2)-E(X)^2 \)のほうで計算する方が楽なことが多いです。
今回も平均±標準偏差を計算してみましょう。平均≒5.33,標準偏差≒2.74なので
5.33-2.74=2.59 , 5.33+2.74=8.07となり0以上9以下の範囲に入っていて違和感のない答えが出てきました。

広告

二項分布

POINT事象Aが起こる確率がp,(起こらない確率がq=1-p)である試行をn回行う反復試行でAが起こる回数をXとする。このとき確率変数Xは二項分布B(n,p)に従うという。
このとき
P(X=r)=nCr pr(1-p)n-r
平均E(X)=np
分散V(X)=npq (※q=1-p)
標準偏差σ(X)=\(\sqrt{npq}\)

本当は平均や分散は定義通り計算すると
\(\displaystyle E(X)=\sum_{k=0}^n k {}_n C_k p^k (1-p)^{n-k} \)
\(\displaystyle V(X)=\sum_{k=0}^n (k-np)^2 {}_n C_k p^k (1-p)^{n-k} \)
となります。このΣ計算は数列のかなり応用問題として数学の実力がある人なら計算できると思いますがそれを頑張って計算すると上の結果が得られるわけです。シンプルな結果を覚えておけば毎回面倒なΣ計算をせずに単純なかけ算だけで求められます。

例題3

赤球2個,白球3個入った袋の中から無作為に球を1個とりだし,色を調べて元に戻す操作を6回繰り返す。このとき赤球が取り出される回数をXとする。確率変数Xの平均・分散・標準偏差を求めよ。

よく二項分布を説明するときにコインを投げて表が出るか裏が出るかの例をあげることが多いのでコインとかの数学的題材しか使えないような印象を持つ人もいますがそうではなく,pの確率で成功,1-pの確率で失敗となることをn回繰り返すものは二項分布の公式が使えるということです。たとえばテレビ番組を見たか見てないかなどにも応用できます。

答え確率変数Xは二項分布\( B(6,\frac{2}{5}) \)に従うので
平均は\( 6\cdot \frac{2}{5} = \frac{12}{5} \)
分散は\( 6 \cdot \frac{2}{5} \cdot (1-\frac{2}{5} ) = 6 \cdot \frac{2}{5} \cdot \frac{3}{5}= \frac{36}{25} \)
標準偏差は\( \sqrt{\frac{36}{25}}=\frac{6}{5} \)

連続型(大学生向け)

注意: 計算するのに積分を使います。積分は最短で数II,難しいものだと大学レベルの積分まで使うこともあるので通常,共通テストにはでません。積分を勉強してから統計を使う立場の人(大学生など)が読みましょう。

密度関数

連続型確率変数Xの確率密度関数f(x)(a≦x≦b)は次の性質を満たす
1 すべての実数xに対しf(x)≧0 (密度関数はf(x)≦1とは限らない)
2 \(\displaystyle P(c\leq x\leq d)=\int_c^d f(x)dx \)
3 \(\displaystyle \int_a^b f(x)dx =1 \)(確率の和は1)

平均
\(\displaystyle E(X)=\int_a^b xf(x)dx \)
分散
\(\displaystyle V(X)=\int_a^b (x-E(X))^2 f(x)dx \)

\(\displaystyle E(X^2)=\int_a^b x^2 f(x)dx \)として
\( V(X)=E(X^2)- \{ E(X) \}^2 \)ともかける。

標準偏差
\( \sigma (X)=\sqrt{V(X)} \)

例題4

kを定数とする。確率密度関数が\( f(x)=kx \)(10≦x≦20),f(x)=0(それ以外の時)
で表されるとき,平均と分散,標準偏差を求めよ。

kは定数と書いていますが確率の和が1であることからkの値は定まります。なので定めてから具体的な値として求めましょう。

答え\(\displaystyle \int_{10}^{20} kx dx =\left[ \frac{1}{2}kx^2 \right]_{10}^{20} = 150k =1 \)
なので\(\displaystyle k=\frac{1}{150} \)
\(\displaystyle E(X)=\int_{10}^{20} xf(x)dx = \left[ \frac{1}{3}kx^3 \right]_{10}^{20} = \frac{7000}{450}=\frac{140}{9} \)
\(\displaystyle E(X^2)=\int_{10}^{20} x^2 f(x)dx = \left[ \frac{1}{4}kx^4 \right]_{10}^{20} = \frac{150000}{600}=250 \)
\(\displaystyle V(X)=E(X^2)-E(X)^2=250-(\frac{140}{9})^2=\frac{650}{81} \)
\(\displaystyle \sigma (X)=\sqrt{V(X)}= \frac{\sqrt{650}}{9}=\frac{5\sqrt{26}}{9} \)
1 電卓を使うと平均≒15.55 標準偏差≒2.83ぐらいなので平均±標準偏差はどちらも10と20の間です。このぐらい複雑な桁の計算をすると計算間違いしたときにけた違いの答えが出ることもありますが検算すれば大幅なミスはなくせますね。
2 分散を定義通り計算すると
\(\displaystyle V(X)=\int_{10}^{20} (x-\frac{140}{9})^2 \frac{1}{150} x dx \\ =\displaystyle \int_{10}^{20} \frac{1}{150}x^3 - \frac{28}{135}x^2 + \frac{392}{243}x dx \\ = \displaystyle \left[ \frac{1}{600}x^4 - \frac{28}{405}x^3 + \frac{196}{243}x^2 \right]_{10}^{20} \\ = \displaystyle \frac{150000}{600} - \frac{28}{405} \cdot 7000 + \frac{196}{243}\cdot 300 \\ = \displaystyle 250-\frac{19600}{81}= \frac{650}{81} \)
となり,一致しますがやはり計算量が多くて大変ですね。

分量は多いですがほとんど復習だと思います。統計の本番はここからで「正規分布」という分布を使いこなすことが重要です。正規分布は連続型ですが共通テストには出てきます。結果だけを公式として使うのなら積分は必要ないですが,連続型の考えを知っておくと理解が深まります。

解説を読んで数学がわかった「つもり」になりましたか?数学は読んでいるうちはわかったつもりになりますが演習をこなさないと実力になりません。そのためには問題集で問題を解く練習も必要です。オススメの参考書を厳選しました

<高校数学> <大学数学> さらにオススメの塾、特にオンラインの塾についてまとめてみました。自分一人だけでは自信のない人はこちらも参考にすると成績が上がります。