この記事のゴール
- 相対度数って何?がわかる
- 階級値って何?がわかる
- 度数分布表の平均ってどうやって出すの?がわかる
前提条件
- 階級と度数については理解している。
階級と度数については、前回の記事を参考にしてください。
相対度数って何?
合計に対する度数の割合です。
相対度数 = 度数 ÷ 合計
で計算します。それだけ。
じゃあ、相対度数を出してみよう
具体例として、前回のデータをそのまま使うことにします。
1.データ:社員20人の片道通勤時間(分)
15, 40, 35, 5, 35, 90, 30, 45, 20, 25 50, 10, 55, 65, 20, 70, 25, 15, 20, 0
2.度数分布表の作成
階級幅を15分で区切って、相対度数まで出してみます。
階級 | 度数 | 相対度数 |
0以上~15未満 | 3 | 0.15 |
15以上~30未満 | 7 | 0.35 |
30以上~45未満 | 4 | 0.20 |
45以上~60未満 | 3 | 0.15 |
60以上~75未満 | 2 | 0.10 |
75以上~90未満 | 0 | 0.00 |
90以上~105未満 | 1 | 0.05 |
合計 | 20 | 1.00 |
相対度数を含めた度数分布表ができました。
相対度数は割合なので 1.00 より小さい数になります。
相対度数の合計は 1.00 になります。
相対度数の少数以下の桁数は揃えましょう。
度数を割合にすることで、全体に対してどれくらいを占めているのかが
数値として掴みやすくなります。
階級値って何?
階級値とは、階級の中間の値です。
階級値 = (上端 + 下端) ÷ 2
で計算します。
例えば、15以上~30未満の階級の場合は、
階級値 = (15 + 30) ÷ 2 = 22.5
となります。次の平均値の計算で使います。
度数分布表の平均ってどうやって出すの?
度数分布表から平均を出す方法は、
平均値 = (階級値 × 度数)の合計 ÷ 度数の合計
です。少し面倒ですね。手計算ではやりたくありません。
今どきの中学生は定期テストでこの手計算をやらされます。
鬼畜です。筆者は、そんなの計算機でやらせりゃいいじゃんと思います。
先程のデータを使って出してみましょう。
階級 | 階級値 | 度数 | 階級値×度数 |
0以上~15未満 | 7.5 | 3 | 22.5 |
15以上~30未満 | 22.5 | 7 | 157.5 |
30以上~45未満 | 37.5 | 4 | 150.0 |
45以上~60未満 | 52.5 | 3 | 157.5 |
60以上~75未満 | 67.5 | 2 | 135.0 |
75以上~90未満 | 82.5 | 0 | 0.0 |
90以上~105未満 | 97.5 | 1 | 97.5 |
合計 | ー | 20 | 720.0 |
平均 | ー | ー | 36.0 |
はい、できました。ただし、注意が必用です。
度数分布表の平均値は信じて良いのか?
答えはNOです。
元データの純粋な平均値をとると 33.5 となります。(データの合計÷データの個数)
誤差2.5、純粋な平均値33.5に対して約7.5%の誤差です。大きいですね。
何が原因かというと、階級幅の取り方にあります。
階級幅が大きい分、階級値が大きくなり、誤差が出やすくなります。
このケースでは、階級幅を0.4より小さくすれば、平均値が33.5になります。
でも、それでは度数分布表を作る意味がなくなりますね。
もう一つの原因ですが、データの個数自体が少ないせいでもあります。
もっと、1万個など、個数が増えると精度が上がりますが、
この階級幅だと、個数を増やしても誤差5%に収束するようです。
5%の誤差は大きいです。消費税5%でも嫌ですよね。
つまり、数十個程度のデータで出した度数分布表の平均値は信じてはいけません。
じゃあ、なんで信じられない平均値を出すのか?
度数分布表はザックリと傾向を掴むツールなので、誤差5%なら近似値として有効じゃないか。
つまり、ザックリと平均はこのくらいということなのでしょう。
今回は以上です。お疲れさまでした。
コメント