数学の時間:度数分布表入門 (2/2)

数学

この記事のゴール

  • 相対度数って何?がわかる
  • 階級値って何?がわかる
  • 度数分布表の平均ってどうやって出すの?がわかる

前提条件

  • 階級と度数については理解している。

 階級と度数については、前回の記事を参考にしてください。

相対度数って何?

合計に対する度数の割合です。

相対度数 = 度数 ÷ 合計

で計算します。それだけ。

じゃあ、相対度数を出してみよう

具体例として、前回のデータをそのまま使うことにします。

1.データ:社員20人の片道通勤時間(分)

15, 40, 35, 5, 35, 90, 30, 45, 20, 25
50, 10, 55, 65, 20, 70, 25, 15, 20, 0

2.度数分布表の作成

階級幅を15分で区切って、相対度数まで出してみます。

階級度数相対度数
0以上~15未満30.15
15以上~30未満70.35
30以上~45未満40.20
45以上~60未満30.15
60以上~75未満20.10
75以上~90未満00.00
90以上~105未満10.05
合計201.00

相対度数を含めた度数分布表ができました。

相対度数は割合なので 1.00 より小さい数になります。

相対度数の合計は 1.00 になります。

相対度数の少数以下の桁数は揃えましょう。

度数を割合にすることで、全体に対してどれくらいを占めているのかが

数値として掴みやすくなります。

階級値って何?

階級値とは、階級の中間の値です。

階級値 = (上端 + 下端) ÷ 2

で計算します。

例えば、15以上~30未満の階級の場合は、

階級値 = (15 + 30) ÷ 2 = 22.5

となります。次の平均値の計算で使います。

度数分布表の平均ってどうやって出すの?

度数分布表から平均を出す方法は、

平均値 = (階級値 × 度数)の合計 ÷ 度数の合計

です。少し面倒ですね。手計算ではやりたくありません。

今どきの中学生は定期テストでこの手計算をやらされます。

鬼畜です。筆者は、そんなの計算機でやらせりゃいいじゃんと思います。

先程のデータを使って出してみましょう。

階級階級値度数階級値×度数
0以上~15未満7.5322.5
15以上~30未満22.57157.5
30以上~45未満37.54150.0
45以上~60未満52.53157.5
60以上~75未満67.52135.0
75以上~90未満82.500.0
90以上~105未満97.5197.5
合計20720.0
平均36.0

はい、できました。ただし、注意が必用です。

度数分布表の平均値は信じて良いのか?

答えはNOです。

元データの純粋な平均値をとると 33.5 となります。(データの合計÷データの個数)

誤差2.5、純粋な平均値33.5に対して約7.5%の誤差です。大きいですね。

何が原因かというと、階級幅の取り方にあります。

階級幅が大きい分、階級値が大きくなり、誤差が出やすくなります。

このケースでは、階級幅を0.4より小さくすれば、平均値が33.5になります。

でも、それでは度数分布表を作る意味がなくなりますね。

もう一つの原因ですが、データの個数自体が少ないせいでもあります。

もっと、1万個など、個数が増えると精度が上がりますが、

この階級幅だと、個数を増やしても誤差5%に収束するようです。

5%の誤差は大きいです。消費税5%でも嫌ですよね。

つまり、数十個程度のデータで出した度数分布表の平均値は信じてはいけません。

じゃあ、なんで信じられない平均値を出すのか?

度数分布表はザックリと傾向を掴むツールなので、誤差5%なら近似値として有効じゃないか。

つまり、ザックリと平均はこのくらいということなのでしょう。

今回は以上です。お疲れさまでした。

コメント

タイトルとURLをコピーしました