変数変換(u=aX+b, u=X+Y)とデータの分析

上野竜生です。前回のデータの分析で一部の結果だけ与えましたがちゃんとした証明と,もう1つの変数変換u=X+Yについても調べてみたいと思います。基本的にセンター試験用なので結果だけで大丈夫だとは思いますが絶対に失点できない立場の人は証明も理解しておくほうがいいでしょう。

変数変換とデータの分析

なお数I範囲で行いたいのでΣ記号は使わず「・・・」で表記しますがそれで十分理解できるでしょう。

スポンサーリンク

u=aX+bと変換

a,bは定数としXの平均を

\(\displaystyle \bar{X}=\frac{x_1+x_2+\cdots + x_n}{n} \)

,分散を

\(\displaystyle s_x^2=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2}{n}\)

とする。(ゆえに標準偏差は\( s_x \))このときu=aX+bの平均・分散・標準偏差を求めてみよう。

uの平均

各データは\(u_i=ax_i +b \)となるので平均は

\(\bar{u}= \displaystyle \frac{u_1+u_2+\cdots + u_n}{n}\\
=\displaystyle \frac{(ax_1+b)+(ax_2+b)+\cdots +(ax_n+b)}{n}\\
=\displaystyle \frac{a(x_1+x_2+\cdots +x_n)+bn}{n}\\
=\displaystyle a\frac{x_1+x_2+\cdots +x_n}{n}+ b \\
=a\bar{x}+b \)

となる。

uの分散

\( \bar{u}=a\bar{x}+b\)なので

\( u_i-\bar{u}=ax_i+b-a\bar{x}-b=a(x_i-\bar{x}) \)となることに注意する。

\( \displaystyle \frac{(u_1-\bar{u})^2+(u_2-\bar{u})^2+\cdots +(u_n-\bar{u})^2}{n}\\
=\displaystyle \frac{\{a(x_1-\bar{x})\}^2+\{a(x_2-\bar{x})\}^2+\cdots +\{a(x_n-\bar{x})\}^2}{n}\\
=\displaystyle a^2\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2}{n}\\
=a^2 s_x^2 \)

となる。

uの標準偏差

\( \sqrt{a^2 s_x^2}=|a|s_x \)となる。

このように各データがわからなくてもu=aX+bの変数変換では平均はa倍してb増える,分散はa2倍,標準偏差は|a|倍になるということがわかります。

u=aX+b , v=cY+d と変換

X,Yの共分散を

\( \displaystyle s_{xy}=\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots +(x_n-\bar{x})(y_n-\bar{y})}{n} \)

相関係数を

\(\displaystyle r_{xy}=\frac{s_{xy}}{s_x s_y} \)

とする。このときu,vの共分散・相関係数を計算しよう。

共分散

\( (u_i – \bar{u})(v_i – \bar{v})=(ax_i + b -a\bar{x}-b)(cy_i +d-c\bar{y}-d )=ac(x_i-\bar{x})(y_i-\bar{y}) \)

であることに注意します。(というよりこれがほぼすべてです。)

\( \displaystyle \frac{(u_1-\bar{u})(v_1-\bar{v})+(u_2-\bar{u})(v_2-\bar{v})+\cdots + (u_n-\bar{u})(v_n-\bar{v})}{n}\\
=\displaystyle ac \frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots + (x_n-\bar{x})(y_n-\bar{y})}{n}\\
=ac s_{xy} \)

相関係数

\( \displaystyle \frac{s_{uv}}{s_u s_v}=\frac{ac s_{xy}}{|a|s_x |c|s_y}=\frac{ac}{|ac|}r_{xy} \)

つまり絶対値は等しくac>0ならばrxy,ac<0ならば-rxyとなる。

a,cが同符号なら相関係数は同じ。異符号なら絶対値は同じで符号が逆転する。

ここまでは結果だけ知っておきましょうという話でした。さて,もう1つはu=x+yの変換についても述べます。

u=x+yと変換

平均

こちらは簡単でしょう。

\( \displaystyle \frac{u_1+u_2+\cdots + u_n}{n}\\
=\displaystyle \frac{(x_1+y_1)+(x_2+y_2)+\cdots +(x_n+y_n)}{n}\\
=\displaystyle \frac{x_1+x_2+\cdots +x_n}{n}+\frac{y_1+y_2+\cdots +y_n}{n}\\
=\bar{x}+\bar{y} \)

単純にそれぞれの平均の和です。

分散はちょっと複雑ですよ。

分散

\( u_i-\bar{u} = (x_i-\bar{x})+(y_i-\bar{y}) \)より

\( (u_i-\bar{u})^2= (x_i-\bar{x})^2+ (y_i-\bar{y})^2 + 2(x_i-\bar{x})(y_i-\bar{y})\)

がなり立つことに注意する。特に最後の項が厄介です。

\( \displaystyle \frac{(u_1-\bar{u})^2+(u_2-\bar{u})^2+\cdots +(u_n-\bar{u})^2}{n}\\
=\displaystyle \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots + (x_n-\bar{x})^2}{n} + \frac{(y_1-\bar{y})^2+(y_2-\bar{y})^2+\cdots + (y_n-\bar{y})^2}{n}\\
\displaystyle + 2\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+\cdots (x_n-\bar{x})(y_n-\bar{y})}{n}\\
=s_x^2+s_y^2+2s_{xy} \)

よって分散は(Xの分散)+(Yの分散)+2×(X,Yの共分散)となる。

分散の記号をsx2と書いてるのでややこしいですが(Xの分散の2乗)+…ではありません!

特に定義から\( s_{xy}=r_{xy} s_x s_y \)であり,sx,sy>0なので最後の項「2sxy」の正負は相関係数rxyの正負と一致する。

ここまで理解すれば十分すぎるでしょう。頑張ってください。

数学はもちろん他の科目も勉強できる「スタディサプリ」なら人気講師の授業動画で、塾にいかなくてもまるで塾にいったかのような勉強ができます。塾と比較すると格安で、しかも無料おためしもできます。当サイトオススメのサイトです。


スタディサプリについて解説したページはこちら
スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする