統計学(著:小池) 第2回
さて今回のテーマは、データの散らばりです。データの散らばりを表す値には
範囲(レンジ)、分散、標準偏差、変動係数、四分偏差
があります。
(他にもあるのかもしれませんが僕は知りません)そして最後に分布の形について少し述べます。
それでは、データの散らばりを表す値について一つずつ見ていくことにしましょう!
範囲(レンジ)…これはデータの値の最大値と最小値の差です。
散らばりを測る最も簡単な手段ですがその範囲の中での散らばりについてはわからず、また外れ値(他の値から大きく離れた値)の影響を受けやすいというデメリットもあります。
簡単に求まるけどその分使い勝手は悪いって感じです。
分散…これは各データの値と平均値との差を足し合わせたものをデータの個数で割ったものです。式にするとこうなります。
標準偏差をσと書くので分散はこのように書くことに気をつけましょう。
また母集団の分散ではなく標本の分散を考えるときにはnではなくn-1で割りその分散を不偏分散 と言うそうです。
(詳しいことは知りません。すみません・・・)
そしてこの時にはσの代わりにSを使います。
分散には以下のような計算方法もあります。手計算の時に便利なので覚えておくことをおすすめします。
です。
シグマをバラバラにして平均の定義を用いることで簡単に証明できるのでやってみましょう。
標準偏差…これは分散の正の平方根です。σまたは、Sまたは、SDと書きます。
分散は大きくなりがちなのでこれをよく用います。
そして標準偏差は単位がデータと同じになることも知っておきましょう。
変動係数…これは標準偏差を平均で割ったもので、標準偏差が平均値の何%にあたるかを計算したものです。(100%を超えることもあります)。
CVと書きます。
平均値が大きくなれば一般的に標準偏差も大きくなるので変動係数は平均値が大きく異なるようなデータ同士を相対的に比べるときに便利です。
また無名数(単位のない数)なので単位が異なるデータ同士も比べられます。
~BREAK TIME~標準得点
標準偏差がでてきたので標準得点についてふれておきます。
標準得点とは各データから平均値を引いて標準偏差で割ったものでZバリューなどと呼ばれます。
これはあるデータが全体のどの位置にいるのかを示します。
Zバリューが1.5だと上位7%、0.5だと31%です。
ちなみに偏差値は(標準得点)×10+50となります。
つまり、偏差値は本質的には標準得点と同じものなのです。
100点満点のテストの値に近い方が馴染みがあるのでこのような処理をしているそうです。
僕からの画像