上野竜生です。データの分析は共通テスト数IAで出題されます。二次試験ではほぼ出題されません(特に難関大学の場合。)そこで共通テストを乗り切るための知識を蓄えておきましょう。
なお,数IIBの範囲にも統計分野はありますが選択問題となっており,避けて通れますので記事は分割することにします。(数IAのデータの分析は必須)
度数分布表
出題頻度はあまり高くないので次の「言葉の意味を知る」から読んでもいいぐらいです。
・階級とはデータの値の範囲のことです。
・階級値とは階級のちょうど真ん中の値のことです。
・度数とは各階級に含まれるデータの数のことです。
・相対度数とは各階級の度数の全体に対する割合(合計が1になるように調整されます)
たとえば10人の身長(cm)が
160,173,171,179,157,167,171,174,166,172
だったとき,度数分布表は下のようになります。(階級幅をどのぐらいにとるかによって書き方はいろいろあります。下の表はその一例です。)
階級(cm) | 階級値(cm) | 度数(人) | 相対度数 |
155以上160未満 | 157.5 | 1 | 0.1 |
160以上165未満 | 162.5 | 1 | 0.1 |
165以上170未満 | 167.5 | 2 | 0.2 |
170以上175未満 | 172.5 | 5 | 0.5 |
175以上180未満 | 177.5 | 1 | 0.1 |
合計 | 10 | 1 |
ヒストグラムとは各階級の度数を柱状にしたグラフで、横軸に階級、縦軸に度数をとったものです。先ほどの例をヒストグラムにすると下のようになります。
言葉の意味を知る
平均値:データの平均の値です。(全部足してデータの数で割ります)
中央値:大きい順に並べたときちょうど真ん中にくる値です。たとえば「1,2,7,8,9」の中央値は7です。偶数個の場合,真ん中2つを足して2で割ったものです。たとえば「1,2,6,7,8,9」の中央値は6.5になります。
最頻値:最も頻繁に登場する値です。「1,2,2,2,2,8,9,9」の最頻値は2になります。
四分位数:データを小さい順に並べ替えたとき,中央値より小さい部分での中央値を第1四分位数,中央値より大きい部分での中央値を第3四分位数という。また第3四分位数と第1四分位数の差を四分位範囲という。
データの個数が4nか4n+1か4n+2か4n+3かによってややこしくなると思うので例題を見ましょう。
(1) 1,4,9,10
(2) 1,4,9,10,11
(3) 1,4,9,10,11,12
(4) 1,4,9,10,11,12,13
答え(1)中央値は6.5なのでそれより小さい「1,4」の中央値である「2.5」が答え。
(2)中央値は9なのでそれより小さい「1,4」の中央値である「2.5」が答え。
(3)中央値は9.5なのでそれより小さい「1,4,9」の中央値である「4」が答え。
(4)中央値が10なのでそれより小さい「1,4,9」の中央値である「4」が答え。
このようにデータがすべて整数値で与えられている場合,中央値や四分位数は「○.5」の形にまではなる可能性があります。
箱ひげ図
箱ひげ図の説明は下の図を見れば一発で分かるようにまとめましたのでご覧ください。
簡単な図から6つの値を読み取ることができます。
分散・標準偏差・共分散・相関係数
分散とは「((各データ)-(平均))の2乗」の平均です。「平均」を2回求めることに注意してください。
標準偏差は分散にルートをつけたものです。
共分散とはXとYのデータの組(x,y)についてXの平均をa,Yの平均をbとするとき
「(x-a)(y-b)」の平均です。
相関係数は共分散をXの標準偏差でわり,さらにYの標準偏差で割ったものです。
とここまで書いても全然ピンとこないでしょう。具体的に見てみましょう。
1,3,4,8
定義に従って計算します。平均は\( \displaystyle \frac{1+3+4+8}{4}=4 \)です。
各データマイナス平均はそれぞれ「1-4」「3-4」「4-4」「8-4」つまり,「-3,-1,0,4」です。これらの2乗は「9,1,0,16」ですのでこの平均である6.5が分散となります。
標準偏差は\( \sqrt{6.5} \)です。
(1,8),(3,4),(4,3),(8,1)
Xに該当するものは「1,3,4,8」であり,その平均は4
Yに該当するものは「8,4,3,1」であり,その平均は4
それぞれのデータについて「(x-a)(y-b)」を書きだすと
「(1-4)(8-4)」「(3-4)(4-4)」「(4-4)(3-4)」「(8-4)(1-4)」
となり,つまり「-12,0,0,-12」です。
これらの平均は-6なので共分散は-6です。
相関係数は\( \displaystyle \frac{-6}{\sqrt{6.5}\sqrt{6.5}}=-\frac{12}{13} \)と求まります。
分散・共分散を求める便利な公式
まず結論を書きます
分散=(2乗平均)-(平均の2乗)
x,yの共分散=(xyの平均)-(xの平均)(yの平均)
証明をしておきます。各データをx1,x2,x3,・・・,xn, y1,y2,y3,・・・,ynとします。
分散=「(xi-平均)2の平均」ですが2乗部分を展開すると次のようになります。
「xi2-2xi×(平均)+(平均)2 の平均」
ここで(平均)はただの定数だから、定数の平均はその定数そのものになることを利用すると
(xi2の平均)-2×(平均)×(xiの平均)+(平均)2
=(2乗平均)-2×(平均)2+(平均)2=(2乗平均)-(平均の2乗)
共分散はXとYのデータの組(x,y)についてXの平均をa,Yの平均をbとするとき
「(x-a)(y-b)」の平均である。式を展開すると
「xy- ay - bx + ab」の平均である。つまり
「(xyの平均) - (ayの平均) - (bxの平均) + (abの平均)」
a,bは定数であることから次のようにかける
「(xyの平均) - a×(yの平均) - b×(xの平均) + ab」
=「(xyの平均) - ab - ab + ab」=(xyの平均)-ab
=(xyの平均)-(xの平均)(yの平均) (証明終わり)
とこうなるのですが出題頻度も高く毎回「~の平均」という感じで証明してると頭がややこしくなるので,定義の式を展開した赤字部分ぐらいまでは導出し,そこから一気に結果まで復元できるぐらいに覚えておきたいところです。
(1) 1,3,4,8 の分散は6.5であることを確かめよ。
(2) (1,8),(3,4),(4,3),(8,1) の共分散は-6であることを確かめよ。
答え(1) 平均は4。2乗平均は
よって(2乗平均)-(平均の2乗)
\(\displaystyle = \frac{45}{2} - 4^2 = \frac{13}{2} \)
(2) xの平均,yの平均はともに4。 xyをそれぞれもとめると8,12,12,8となるのでその平均は10。よって
(xyの平均)-(xの平均)(yの平均)=10-4×4=-6
相関係数の意味
相関係数の特徴をおさえましょう。
- 相関係数は必ず-1以上1以下である。
- 相関係数が正ならなんとなく右肩上がり。負ならなんとなく右肩下がり
- 相関係数の絶対値が大きいほどばらつきは少なく一直線
赤い丸や線は補助的にかいたものなので試験の時には書かれていません。
また相関係数が負の時は左右反対になると思ってください。
大きいほうがどっちだっけ・・・?ってならないようにするために最も極端な相関係数1の場合を覚えておきましょう。あとはそれに近いほうが相関係数も1に近いというような感覚でOKです。
実際に計算させずになんとなくで相関係数を4択で当てるような問題は意外と出ます。その場合選択肢は「-0.9,-0.2,0.2,0.9」のように意味を理解すれば間違うことのない選択肢で出題されることが多いですのでここで落とすことのないようにしましょう。
変数変換で分散や共分散などはどう変わる?
元のデータ:X
変換後のデータ:aX+b
(共分散・相関係数については元のデータ(X,Y),変換後(aX+b,cY+d)とする)
とするとき,○○は何倍になるか?という問題に関してはちゃんと理解しようとすると複雑な式を見ることになるので結果だけ覚えましょう。
もとに比べて | |
平均 | a倍+b |
分散 | \(a^2\)倍 |
標準偏差 | |a|倍 |
共分散 | ac倍 |
相関係数 | acが正のとき1倍
acが負のとき-1倍 |
ここまで覚えれば試験で高得点がとれます。頑張りましょう。
解説を読んで数学がわかった「つもり」になりましたか?数学は読んでいるうちはわかったつもりになりますが演習をこなさないと実力になりません。そのためには問題集で問題を解く練習も必要です。オススメの参考書を厳選しました
<高校数学>上野竜生です。数学のオススメ参考書などをよく聞かれますのでここにまとめておきます。基本的にはたくさん買うよりも…
上野竜生です。大学数学の参考書をまとめてみました。フーリエ解析以外は自分が使ったことある本から選びました。 大…
上野竜生です。当サイトでも少し前まで各ページで学習サイトをオススメしていましたが他にもオススメできるサイトはた…