http://mcobaya.hp.infoseek.co.jp/kisotokei/index.htm 講義のsite

 レポートなど送付先

 

第2章            相関係数,単回帰分析

 

 

分散はばらつきの大きさの尺度である。「中心からの距離の2乗」の平均的な値と考えられる。したがって、その平方根である標準偏差は、おおよそ、「中心からの平均距離」と考えてよい。(厳密ではないが)

相関係数は何をはかっているのか。

第1象限ではX、Yとも平均m(X),m(Y)以上なので、積(X-m(X)(Y- m(Y))はプラスの値。

第2象限ではXは平均以上、Yは平均以下なので、積(X-m(X)(Y- m(Y))はマイナスの値。

第3象限ではX、Yとも平均以下なので、積(X-m(X)(Y- m(Y))はプラスの値です。

第4象限ではXは平均以下、Yは平均以上なので、積(X-m(X)(Y- m(Y))はマイナスの値。

したがって、散布図が右上がりならデータの多くは第1象限と第3象限に集まり、(X-m(X)(Y- m(Y))の値はほとんどプラスになり、相関係数の分子プラスの値になる。逆に

散布図が右下がりならデータの多くは第2象限と第4象限に集まり、(X-m(X)(Y- m(Y))の値はほとんどマイナスになり、相関係数の分子マイナスの値になる。分母は相関係数の絶対値が1以下になるようにするための調整項。相関係数の絶対値が1であるとは完全な直線的関係。

X-m(X)<0, Y-m(Y)>0 

(X-m(X))×(Y-m(Y))<0

 

X-m(X)>0, Y-m(Y)>0

(X-m(X))×(Y-m(Y))>0

 

X-m(X)>0, Y-m(Y)<0 

(X-m(X))×(Y-m(Y))<0

 

X-m(X)<0, Y-m(Y)<0

(X-m(X))×(Y-m(Y))>0

 
 

 

 

 

 吉村功「アザラシ状奇形の原因1―サリドマイド仮説の成立に関する統計学上の争点について」『科学』岩波書店、1971年 データはyoshimura1.pdf(練習問題:妊婦のサリドマイド服用率の推定値Xと奇形発生率Yの相関係数を計算して、有意かどうか点検しよう。)

 サリドマイドによる奇形説に反対する学者は縦軸に「奇形児数÷出生児数」、横軸に「サリドマイド販売量」をとって散布図(左図)を描き、両者に相関が認められないと主張。どこがおかしいか。相関係数=0.558, N=54」

第4図:人的資本と地方の労働生産性
第4図:人的資本と地方の労働生産性

備考)総務省「事業所・企業統計調査」(平成13年)により作成。
『この第4図から、和歌山県は大学・大学院修了者の割合が少ないことが、労働生産性に影響しているのではないかと思われます。白書では、このように、地域の生産性は、より生産性の高い産業に特化している度合いが大きいほど、人的資本が高いほど、それに比例して高いということがいえるとしています。』 
使うデータkogakurekis.xls (用いたデータが異なるので結果がやや異なる。)

最小自乗法

回帰分析:相関はXYの関連を図っている。XYへの因果を前提として、Xが制御できる(わかる)とき、Yを予測しよう。

 

最小自乗法とは「当てはまり」の尺度として残差y(1)- a - b*X(1)y(n) - a - b*X(n)の平方和、すなわち残差平方和を

[y(1)- a - b*X(1)]2+...+[y(n) - a - b*X(n)]2

を最小にする。ただし、nは観測期間の長さ。myyの平均

決定係数=

問:なぜ残差を自乗するのか。答え:自乗するとつねに正か0の値になり、残差平方和が0ならば当てはまりは完全になり、残差平方和が大きければ当てはまりが悪いと判断できる。

問:自乗しなくても絶対値でよいではないか。答:数学的に取り扱いがやっかい(性質がわかりにくい、計算機は絶対値の計算が苦手)

実際にはa,bを試行錯誤により決定すると言うことはなく、公式を使って、a,bを求める。

問:決定係数の小さな回帰分析場合、説明変数は無効か 答:小さな決定係数は雑音が大きいことをいっているだけで、説明変数の影響の有無とは関係ない。

問:XYに相関があることはXYに因果関係を意味するか。

問:XYに相関がないことはXYに関係がまったくないことを意味するか。

問:目で見たところ関連がなさそうなのだが、相関はないといってよいのか。

 

公式の導出

a,bは残差平方和最小化の一階の条件、すなわちa,bについて残差平方和を変微分したものがそれぞれ0であること。(aについて偏微分するとは、bは定数と見なし、aだけについて微分すること。同様にbについて偏微分するとはaは定数と見なし、bだけについて微分すること)

残差平方和をaで偏微分すると

(-1)[y(1) - a - b*x(1)]+...+( -1)[y(n) - a - b*x(n)].

これが0に等しいという条件はmy=a+b*mx  (mymx)xyの平均。)

残差平方和をb偏微分する

(-x(1))[y(1) - a - b*x(1)]+...+( -x(n))[y(n) - a - b*x(n)].

この二つの条件から

b=åt-1n(y(t) -my) (x(t) -mx)/å t-1n (x(t) -mx)2

この公式はわかりにくいのですが、(3.5)にあるように、
X
Yの共分散÷Xの分散

と考えるとすっきり。推定値amy=a+b*mxから得る。

問:垂直距離を誤差と考えるのか。答:予測の誤差をできるだけ小さくしたい。

 

直線の傾き自体に興味があるときもある

(本川達雄『ゾウの時間ネズミの時間』中公新書)

ogEnergy=log4.1+0.751*logWeight これを書き換えるとEnergy=4.1*Weight0.751

表面積(熱の発散)は体長の2乗、体重は3乗で増えるので、体重あたりのenergy発生率は体重の0.66乗のはずだが、実際に推定してみると0.75乗になっている。