データの分析(数I範囲)

上野竜生です。データの分析はセンター数IAで出題されます。二次試験ではほぼ出題されません(特に難関大学の場合。)そこでセンターを乗り切るための知識を蓄えておきましょう

なお,数IIBの範囲にも統計分野はありますが選択問題となっており,避けて通れますので記事は分割することにします。(数IAのデータの分析は必須)

データの分析

スポンサーリンク

言葉の意味を知る

平均値:データの平均の値です。(全部足してデータの数で割ります)

中央値:大きい順に並べたときちょうど真ん中にくる値です。たとえば「1,2,7,8,9」の中央値は7です。偶数個の場合,真ん中2つを足して2で割ったものです。たとえば「1,2,6,7,8,9」の中央値は6.5になります。

最頻値:最も頻繁に登場する値です。「1,2,2,2,2,8,9,9」の最頻値は2になります。

四分位数:データを小さい順に並べ替えたとき,中央値より小さい部分での中央値を第1四分位数,中央値より大きい部分での中央値を第3四分位数という。また第3四分位数と第1四分位数の差を四分位範囲という。

データの個数が4nか4n+1か4n+2か4n+3かによってややこしくなると思うので例題を見ましょう。

例題:次のデータの第一四分位数を求めよ。
(1) 1,4,9,10
(2) 1,4,9,10,11
(3) 1,4,9,10,11,12
(4) 1,4,9,10,11,12,13

(1)中央値は6.5なのでそれより小さい「1,4」の中央値である「2.5」が答え。

(2)中央値は9なのでそれより小さい「1,4」の中央値である「2.5」が答え。

(3)中央値は9.5なのでそれより小さい「1,4,9」の中央値である「4」が答え。

(4)中央値が10なのでそれより小さい「1,4,9」の中央値である「4」が答え。

このようにデータがすべて整数値で与えられている場合,中央値や四分位数は「○.5」の形にまではなる可能性があります。

箱ひげ図

箱ひげ図の説明は下の図を見れば一発で分かるようにまとめましたのでご覧ください。

箱ひげ図の説明

簡単な図から6つの値を読み取ることができます。

分散・標準偏差・共分散・相関係数

分散とは「((各データ)-(平均))の2乗」の平均です。「平均」を2回求めることに注意してください。

標準偏差は分散にルートをつけたものです。

共分散とはXとYのデータの組(x,y)についてXの平均をa,Yの平均をbとするとき
「(x-a)(y-b)」の平均です。

相関係数は共分散をXの標準偏差でわり,さらにYの標準偏差で割ったものです。

とここまで書いても全然ピンとこないでしょう具体的に見てみましょう。

次の4つのデータの分散・標準偏差を計算しよう。
1,3,4,8

定義に従って計算します。平均は\( \displaystyle \frac{1+3+4+8}{4}=4 \)です。

各データマイナス平均はそれぞれ「1-4」「3-4」「4-4」「8-4」つまり,「-3,-1,0,4」です。これらの2乗は「9,1,0,16」ですのでこの平均である6.5が分散となります。

標準偏差は\( \sqrt{6.5} \)です。

次のデータの共分散と相関係数を計算しよう
(1,8),(3,4),(4,3),(8,1)

Xに該当するものは「1,3,4,8」であり,その平均は4

Yに該当するものは「8,4,3,1」であり,その平均は4

それぞれのデータについて「(x-a)(y-b)」を書きだすと

「(1-4)(8-4)」「(3-4)(4-4)」「(4-4)(3-4)」「(8-4)(1-4)」

となり,つまり「-12,0,0,-12」です。

これらの平均は-6なので共分散は-6です。

相関係数は\( \displaystyle \frac{-6}{\sqrt{6.5}\sqrt{6.5}}=-\frac{12}{13} \)と求まります。

相関係数の意味

相関係数の特徴をおさえましょう。

  1. 相関係数は必ず-1以上1以下である。
  2. 相関係数が正ならなんとなく右肩上がり。負ならなんとなく右肩下がり
  3. 相関係数の絶対値が大きいほどばらつきは少なく一直線

相関係数説明図

赤い丸や線は補助的にかいたものなので試験の時には書かれていません。

また相関係数が負の時は左右反対になると思ってください。

大きいほうがどっちだっけ・・・?ってならないようにするために最も極端な相関係数1の場合を覚えておきましょう。あとはそれに近いほうが相関係数も1に近いというような感覚でOKです。

実際に計算させずになんとなくで相関係数を4択で当てるような問題は意外と出ます。その場合選択肢は「-0.9,-0.2,0.2,0.9」のように意味を理解すれば間違うことのない選択肢で出題されることが多いですのでここで落とすことのないようにしましょう。

変数変換で分散や共分散などはどう変わる?

元のデータ:X

変換後のデータ:aX+b

(共分散・相関係数については元のデータ(X,Y),変換後(aX+b,cY+d)とする)

とするとき,○○は何倍になるか?という問題に関してはちゃんと理解しようとすると複雑な式を見ることになるので結果だけ覚えましょう。

もとに比べて
平均 a倍+b
分散 \(a^2\)倍
標準偏差 |a|倍
共分散 ac倍
相関係数 acが正のとき1倍

acが負のとき-1倍

ここまで覚えれば試験で高得点がとれます。頑張りましょう。

数学はもちろん他の科目も勉強できる「スタディサプリ」なら人気講師の授業動画で、塾にいかなくてもまるで塾にいったかのような勉強ができます。塾と比較すると格安で、しかも無料おためしもできます。当サイトオススメのサイトです。


スタディサプリについて解説したページはこちら
スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする