データの分析(数I範囲)

上野竜生です。データの分析はセンター数IAで出題されます。二次試験ではほぼ出題されません(特に難関大学の場合。)そこでセンターを乗り切るための知識を蓄えておきましょう

なお,数IIBの範囲にも統計分野はありますが選択問題となっており,避けて通れますので記事は分割することにします。(数IAのデータの分析は必須)

データの分析

スポンサーリンク

度数分布表

出題頻度はあまり高くないので次の「言葉の意味を知る」から読んでもいいぐらいです。
・階級とはデータの値の範囲のことです。
・階級値とは階級のちょうど真ん中の値のことです。
・度数とは各階級に含まれるデータの数のことです。
・相対度数とは各階級の度数の全体に対する割合(合計が1になるように調整されます)

たとえば10人の身長(cm)が
160,173,171,179,157,167,171,174,166,172
だったとき,度数分布表は下のようになります。(階級幅をどのぐらいにとるかによって書き方はいろいろあります。下の表はその一例です。)

階級(cm) 階級値(cm) 度数(人) 相対度数
155以上160未満 157.5 1 0.1
160以上165未満 162.5 1 0.1
165以上170未満 167.5 2 0.2
170以上175未満 172.5 5 0.5
175以上180未満 177.5 1 0.1
合計 10 1

ヒストグラムとは各階級の度数を柱状にしたグラフで、横軸に階級、縦軸に度数をとったものです。先ほどの例をヒストグラムにすると下のようになります。

ヒストグラム

言葉の意味を知る

平均値:データの平均の値です。(全部足してデータの数で割ります)

中央値:大きい順に並べたときちょうど真ん中にくる値です。たとえば「1,2,7,8,9」の中央値は7です。偶数個の場合,真ん中2つを足して2で割ったものです。たとえば「1,2,6,7,8,9」の中央値は6.5になります。

最頻値:最も頻繁に登場する値です。「1,2,2,2,2,8,9,9」の最頻値は2になります。

四分位数:データを小さい順に並べ替えたとき,中央値より小さい部分での中央値を第1四分位数,中央値より大きい部分での中央値を第3四分位数という。また第3四分位数と第1四分位数の差を四分位範囲という。

データの個数が4nか4n+1か4n+2か4n+3かによってややこしくなると思うので例題を見ましょう。

例題:次のデータの第一四分位数を求めよ。
(1) 1,4,9,10
(2) 1,4,9,10,11
(3) 1,4,9,10,11,12
(4) 1,4,9,10,11,12,13

答え(1)中央値は6.5なのでそれより小さい「1,4」の中央値である「2.5」が答え。
(2)中央値は9なのでそれより小さい「1,4」の中央値である「2.5」が答え。
(3)中央値は9.5なのでそれより小さい「1,4,9」の中央値である「4」が答え。
(4)中央値が10なのでそれより小さい「1,4,9」の中央値である「4」が答え。

このようにデータがすべて整数値で与えられている場合,中央値や四分位数は「○.5」の形にまではなる可能性があります。

箱ひげ図

箱ひげ図の説明は下の図を見れば一発で分かるようにまとめましたのでご覧ください。

Pが中心付近 見やすい角度から

簡単な図から6つの値を読み取ることができます。

分散・標準偏差・共分散・相関係数

分散とは「((各データ)-(平均))の2乗」の平均です。「平均」を2回求めることに注意してください。

標準偏差は分散にルートをつけたものです。

共分散とはXとYのデータの組(x,y)についてXの平均をa,Yの平均をbとするとき
「(x-a)(y-b)」の平均です。

相関係数は共分散をXの標準偏差でわり,さらにYの標準偏差で割ったものです。

とここまで書いても全然ピンとこないでしょう具体的に見てみましょう。

次の4つのデータの分散・標準偏差を計算しよう。
1,3,4,8

定義に従って計算します。平均は\( \displaystyle \frac{1+3+4+8}{4}=4 \)です。

各データマイナス平均はそれぞれ「1-4」「3-4」「4-4」「8-4」つまり,「-3,-1,0,4」です。これらの2乗は「9,1,0,16」ですのでこの平均である6.5が分散となります。

標準偏差は\( \sqrt{6.5} \)です。

次のデータの共分散と相関係数を計算しよう
(1,8),(3,4),(4,3),(8,1)

Xに該当するものは「1,3,4,8」であり,その平均は4

Yに該当するものは「8,4,3,1」であり,その平均は4

それぞれのデータについて「(x-a)(y-b)」を書きだすと
「(1-4)(8-4)」「(3-4)(4-4)」「(4-4)(3-4)」「(8-4)(1-4)」
となり,つまり「-12,0,0,-12」です。

これらの平均は-6なので共分散は-6です。

相関係数は\( \displaystyle \frac{-6}{\sqrt{6.5}\sqrt{6.5}}=-\frac{12}{13} \)と求まります。

分散・共分散を求める便利な公式

まず結論を書きます

ポイント
分散=(2乗平均)-(平均の2乗)
x,yの共分散=(xyの平均)-(xの平均)(yの平均)

証明をしておきます。各データをx1,x2,x3,・・・,xn, y1,y2,y3,・・・,ynとします。

分散=「(xi-平均)2の平均」ですが2乗部分を展開すると次のようになります。
「xi2-2xi×(平均)+(平均)2 の平均」
ここで(平均)はただの定数だから、定数の平均はその定数そのものになることを利用すると
(xi2の平均)-2×(平均)×(xiの平均)+(平均)2
=(2乗平均)-2×(平均)2+(平均)2=(2乗平均)-(平均の2乗)

共分散はXとYのデータの組(x,y)についてXの平均をa,Yの平均をbとするとき
「(x-a)(y-b)」の平均である。式を展開すると
「xy- ay – bx + ab」の平均である。つまり
「(xyの平均) - (ayの平均) – (bxの平均) + (abの平均)」
a,bは定数であることから次のようにかける
「(xyの平均) – a×(yの平均) – b×(xの平均) + ab」
=「(xyの平均) – ab – ab + ab」=(xyの平均)-ab
=(xyの平均)-(xの平均)(yの平均)    (証明終わり)

とこうなるのですが出題頻度も高く毎回「~の平均」という感じで証明してると頭がややこしくなるので,定義の式を展開した赤字部分ぐらいまでは導出し,そこから一気に結果まで復元できるぐらいに覚えておきたいところです。

例題(再掲) さっきと同じものです。もちろん先ほどの結果と同じになります。
(1) 1,3,4,8 の分散は6.5であることを確かめよ。
(2) (1,8),(3,4),(4,3),(8,1) の共分散は-6であることを確かめよ。

答え(1) 平均は4。2乗平均は

\(\displaystyle \frac{1^2+3^2+4^2+8^2}{4}=\frac{1+9+16+64}{4}=\frac{90}{4} = \frac{45}{2} \)

よって(2乗平均)-(平均の2乗)
\(\displaystyle = \frac{45}{2} – 4^2 = \frac{13}{2} \)
(2) xの平均,yの平均はともに4。 xyをそれぞれもとめると8,12,12,8となるのでその平均は10。よって
(xyの平均)-(xの平均)(yの平均)=10-4×4=-6

相関係数の意味

相関係数の特徴をおさえましょう。

  1. 相関係数は必ず-1以上1以下である。
  2. 相関係数が正ならなんとなく右肩上がり。負ならなんとなく右肩下がり
  3. 相関係数の絶対値が大きいほどばらつきは少なく一直線

相関係数説明図

赤い丸や線は補助的にかいたものなので試験の時には書かれていません。

また相関係数が負の時は左右反対になると思ってください。

大きいほうがどっちだっけ・・・?ってならないようにするために最も極端な相関係数1の場合を覚えておきましょう。あとはそれに近いほうが相関係数も1に近いというような感覚でOKです。

実際に計算させずになんとなくで相関係数を4択で当てるような問題は意外と出ます。その場合選択肢は「-0.9,-0.2,0.2,0.9」のように意味を理解すれば間違うことのない選択肢で出題されることが多いですのでここで落とすことのないようにしましょう。

変数変換で分散や共分散などはどう変わる?

元のデータ:X

変換後のデータ:aX+b

(共分散・相関係数については元のデータ(X,Y),変換後(aX+b,cY+d)とする)

とするとき,○○は何倍になるか?という問題に関してはちゃんと理解しようとすると複雑な式を見ることになるので結果だけ覚えましょう。

もとに比べて
平均 a倍+b
分散 \(a^2\)倍
標準偏差 |a|倍
共分散 ac倍
相関係数 acが正のとき1倍

acが負のとき-1倍

ここまで覚えれば試験で高得点がとれます。頑張りましょう。

数学はもちろん他の科目も勉強できる「スタディサプリ」なら人気講師の授業動画で、塾にいかなくてもまるで塾にいったかのような勉強ができます。塾と比較すると格安で、しかも無料おためしもできます。当サイトオススメのサイトです。


スタディサプリについて解説したページはこちら
スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする