(4)間隔、比率データの基礎集計


 間隔尺度データも比率尺度データも目盛り間の距離は等しいので、平均値(合計してサンプル数で割る)や個別データーがその平均値からどのような距離にあるか(偏差)など距離的な整理(処理)ができます。間隔尺度データは値の持つ絶対的な比例関係は分析できませんが、基礎集計の仕方はほぼ同じです。



(例題4−1)A,B2大学の学生について親の収入を調査したところ以下の結果が得られた。

(単位:万円)

A大学生の親の年収 B大学生の親の年収
840 760
1200 850
450 1200
560 660
3000 820
750 680
1430 930
800 760
860 890
960 450
1300 560
740 710
640 820
580 580
720 1110
810 660
770 820
760 730
850 710
1200 660
660 520
820 710
680 650
930 580
760 910
890 810
980 1200
690 720
720 840
820 710
770 640
760 680
850 580
1300 810
660 760
1620 920
680 840
930 660
760 1320
890 770
980 820
590 610
840 810
1200 740
750 910
660 660
840 720
780 810
720 640
880 910
760 760
4620 810
680 430
930 620
760 760
890 580
700 730
690 620
720 810
820 670
770 760
760 710
850 800
600 640
800 760


課題4.上のデータの基礎集計を行おう。



 間隔尺度データの基礎集計には、代表値を求める、バラツキを計算する、度数分布を集計するなどの作業があります。

(1)代表値の計算
 代表値とはそれぞれのデータ群を代表する値のことで、平均(mean)最頻値(mode)中央値(median)などがあります。平均値は、

       

m=

という式で求められます。

 エクセルでは関数が用意されていますので、以下の手順で平均値や中央値、最頻値を計算させることが出来ます。
 1.結果を出力したいセルを指定(クリック)
 2.挿入メニューまたは関数アイコン関数をクリックして必要な関数(例えばmean)を選ぶ。
 3.関数のダイアログに集計したいデータの範囲を指定して「OK」を押す。

という操作で簡単に代表値が計算されます。

注)平均といえば、通常は上式の「算術平均」を指しますが、比の平均である「調和平均」、幾何的な平均(積をルートで開平する)である「幾何平均」などもあります。


(2)バラツキ(散布度)の計算
 バラツキとはデータの分布の仕方を表す値(指標)で、レンジ(range 最大値最小値の幅)、偏差平方和、(平均値と個々のデータの差を自乗したものの合計)、分散(偏差平方和をサンプル数Nで割ったもの)、標準偏差(分散をルートで開平したもの)などがあります。
四分偏差(quartile deviation)については後で説明します。

    分散の公式

          

           (ここでmは平均値)



(補足)
 エクセルにはバラツキを集計する関数もそろっています。ただし、rangeは「最大値(MAX)」「最小値(MIN)」を計算させて求めます。
 「VAR」は分散、「STDEV」は標準偏差です。ただし、「VAR」にも「STDEV」にもAやPが付いた関数があります。Pの付いたものは、分母がサンプル数nで割ったものであり、Aが付いた(付かないものも同じ)はn−1で割ったものが出力されます。n−1で割ると母集団の分散により近い値が得られということから通常、n−1で割ったものが「分散」「標準偏差」と呼ばれ、サンプル数で割ったものを「サンプル分散」「サンプル標準偏差」と区別して使い分ける場合があります。