この記事のゴール
- 度数分布表って何?オイシイの?がわかる。
- 度数分布表って一体どう活用するの?がわかる。
ここはIT技術系ブログなのに、なんで数学の時間なの?
- エンジニアに数学は欠かせない
- せめて公立中学校3年生が習う範囲までは基本を知っておくべき
- データ重視の今の世の中、自分でデータ分析できるようになるべき
- AIに騙されてはいけない。
度数分布表って何?オイシイの?
- 結論、オイシイ。
- 一連のデータの統計をとる手法の一つ。
- 簡単に短時間で作れて、データの特徴をザックリ捉えることができる。
- 今は中学校1年生で習う。負けてられない。
この度数分布表とヒストグラム、箱ひげ図を合わせると、
さらに視覚に訴えることができ、データの特徴を短時間で捉えることができます。
まずは基本となる度数分布表から見てみましょう。
度数分布表ってどうやって作るの?
1.データを用意する
2.階級幅(データの区間)を決める
3.階級ごとの所属データの個数を数える
4.表にまとめる
じゃあ、実際に作ってみよう
1.データ:社員20人の片道通勤時間(分)
15, 40, 35, 5, 35, 90, 30, 45, 20, 25 50, 10, 55, 65, 20, 70, 25, 15, 20, 0
この状態だとデータがバラバラで把握しづらい状態です。
2.度数分布表の作成
階級幅(データの区間)を15分で区切って、
それぞれの階級に所属するデータの度数(個数)を数えてみましょう。
階級(分) | 度数(人) |
0以上~15未満 | 3 |
15以上~30未満 | 7 |
30以上~45未満 | 4 |
45以上~60未満 | 3 |
60以上~75未満 | 2 |
75以上~90未満 | 0 |
90以上~105未満 | 1 |
合計 | 20 |
これが度数分布表です。
分析してみよう
集計した目的は分析にあります。
表を見ると一目瞭然、「15以上~30未満」とその前後の階級に集中していますね。
みなさん、比較的近くにお住まいのようです。
「75以上~90未満」はゼロで、一人だけ「90以上~105未満」なのが目につきます。
随分と遠くから通われているようで大変そうです。
場合によってはメンタルケア、ヘルスケアが必用かもしれません。
一旦まとめ
このように、度数分布表は簡単に作れて、サクッとザックリ傾向を掴むことができます。
階級幅は解析精度に影響するので、ここの決め方も重要です。
実は、「計算が得意」と豪語しているChatGPTもGoogle Bardもこの程度の集計ができません。
それらしい回答を提示してきますが、毎回間違いだらけです。
ということで「AIに騙されてはいけない」と書いた次第です。
度数分布表については、本当はもっと細かい内容があるのですが、
今回は度数分布表の基本中の基本ということで、細かい内容は次回以降にします。
コメント