数学の時間:度数分布表入門(1/2)

数学

この記事のゴール

  • 度数分布表って何?オイシイの?がわかる。
  • 度数分布表って一体どう活用するの?がわかる。

ここはIT技術系ブログなのに、なんで数学の時間なの?

  • エンジニアに数学は欠かせない
  • せめて公立中学校3年生が習う範囲までは基本を知っておくべき
  • データ重視の今の世の中、自分でデータ分析できるようになるべき
  • AIに騙されてはいけない。

度数分布表って何?オイシイの?

  • 結論、オイシイ。
  • 一連のデータの統計をとる手法の一つ。
  • 簡単に短時間で作れて、データの特徴をザックリ捉えることができる。
  • 今は中学校1年生で習う。負けてられない。

この度数分布表とヒストグラム、箱ひげ図を合わせると、

さらに視覚に訴えることができ、データの特徴を短時間で捉えることができます。

まずは基本となる度数分布表から見てみましょう。

度数分布表ってどうやって作るの?

1.データを用意する

2.階級幅(データの区間)を決める

3.階級ごとの所属データの個数を数える

4.表にまとめる

じゃあ、実際に作ってみよう

1.データ:社員20人の片道通勤時間(分)

15, 40, 35, 5, 35, 90, 30, 45, 20, 25
50, 10, 55, 65, 20, 70, 25, 15, 20, 0

この状態だとデータがバラバラで把握しづらい状態です。

2.度数分布表の作成

階級幅(データの区間)を15分で区切って、

それぞれの階級に所属するデータの度数(個数)を数えてみましょう。

階級(分)度数(人)
0以上~15未満3
15以上~30未満7
30以上~45未満4
45以上~60未満3
60以上~75未満2
75以上~90未満0
90以上~105未満1
合計20

これが度数分布表です。

分析してみよう

集計した目的は分析にあります。

表を見ると一目瞭然、「15以上~30未満」とその前後の階級に集中していますね。

みなさん、比較的近くにお住まいのようです。

「75以上~90未満」はゼロで、一人だけ「90以上~105未満」なのが目につきます。

随分と遠くから通われているようで大変そうです。

場合によってはメンタルケア、ヘルスケアが必用かもしれません。

一旦まとめ

このように、度数分布表は簡単に作れて、サクッとザックリ傾向を掴むことができます。

階級幅は解析精度に影響するので、ここの決め方も重要です。

実は、「計算が得意」と豪語しているChatGPTもGoogle Bardもこの程度の集計ができません。

それらしい回答を提示してきますが、毎回間違いだらけです。

ということで「AIに騙されてはいけない」と書いた次第です。

度数分布表については、本当はもっと細かい内容があるのですが、

今回は度数分布表の基本中の基本ということで、細かい内容は次回以降にします。

コメント

タイトルとURLをコピーしました