統計学(著:小池) 第1回

f:id:LimeSword:20170424221357j:plain

著者 小池

ついに統計の授業が始まりました!

統計の授業をうけるのは初めてなので難しかったらどうしようと思っていましたが、 第一回の授業は高校のデータの分析とほとんど被っていたので易しかったです。

よかった、よかった

それでは、第一回の授業をまとめていきますね。

今回のテーマは、、、 データの代表値です。

代表値??ってなってる神山さんも多いと思うので、その説明から始めていきます。

まず、その前に量的データ質的データがについて少しだけ。

量的データは足し算・引き算ができるデータ、質的データはそれができないデータと考える といいと思います。

具体的に考えるとわかりやすいでしょう。

身長・体重のデータは量的デ ータで、血液型・電話番号のデータは質的データっていう具合です。電話番号を足してもな んの意味も持ちませんよね?

そして、これからはこの二つのうちの量的データの特性を表現する方法について考えてい きます。その方法が3つありそれらが

  1. 分布の位置を示す平均値・中央値、最頻値

  2. 分布の広がりを示す範囲、分散、標準偏差、変動係数、四分偏差

  3. 分布の形を示す歪度、尖度 ←ワイド、センドと読みます

そして①のことを代表値と言い、①②③を視覚化するのがヒストグラムです(グラフが書け ないのでヒストグラムは省略します)。

代表値

それではここからは代表値を一つずつ見ていきましょう。

一つ目は平均値です。 \overline{x} \muと書きます。

mean→m→ \mu っていう具合でしょう。

ギリシャ文 字 \muはアルファベットmに対応してますので。

平均値といえば合計したやつを個数で割るだ けだろと思うかもしれませんが実は色々な平均があります。

色々な平均値

  1. 相加平均・・・これは合計を個数で割ったものです。普通ですね。*1

  2. 相乗平均・・・n個のデータの値の積のn乗根です。所得などの伸び率の平均を取ると
    きに使います。*2

例えば2年前の所得が500円の神山さんが次の年には1600円、今年に は2000円とすると伸び率はそれぞれ3.2と1.25なので伸び率の平均は(3.2+1. 25)÷2=2.225としてはおかしいですよね?

こんな時には相乗平均を用いるのが正 しくて√3.2×1.25=2 とするのが正しいです。500×2×2=2000となるので正し いですね。

  1. 調和平均・・・n個の値のそれぞれの逆数の和をnで割ったものの逆数です。この段階 ではこの存在だけを知っているだけでいいとのことですので一つ例を挙げるだけに留めて おきます。1,2,3の調和平均は(1/1+1/2+1/3)÷3=11/18なので18/1 1ということです。*3

中央値

二つ目は中央値です。

メディアンとも言います。

これはデータを大きさ順に並べたときに真 ん中にくるものです。

いくつかのデータが大きすぎるときには相加平均があまり当てにな らなくなるので中央値をつかったりするらしいです。

例えば、1,1,1,1,100とい うデータを考えると相加平均は20.8となり当てになりません。

一方、中央値は1なので それらしい値になります。また、データの数が奇数ならその真ん中が中央値ですがは真ん中 が偶数のとき中の二つの(相加)平均になることに注意です!

最頻値

最後は最頻値です。

モードとも言います。

これはデータの中で最もよく現れる値です。

これはデータが自然数などの離散的な値を取るときには使えますが実数値のような連続的 な値のデータではなんの意味も持ちませんね。

これで第一回は以上です。次回は②データの広がりを示す値について書いていきます。

P.S. 最近の座右の銘は “Cool head ,but warm head.”(冷静な頭脳と温かい心) by Alfred Marshall

*1:算術平均ともいう

*2:幾何平均ともいう

*3:同じ道のりを、行きは時速3km、帰りは6㎞で往復したとき、平均して時速何㎞で移動したか?みたいな時に登場