数学の時間:度数分布表の平均の精度

数学

この記事のゴール

  • 度数分布表の平均と、実際の平均との誤差についてわかる。

前提条件

  • 度数分布表の平均の求め方について知っている

度数分布表の平均の求め方と、それが近似値であることは前回の記事を参考にしてください。

度数分布表の平均と実際の平均の誤差を検証

検証結果の記事を作成しました。

Research on Accuracy of Mean Value in Frequency Table

日本語で要約すると次のような感じです。

1.度数分布表の平均と実際の平均値の誤差はそこそこ大きい

使用データ(ダミー): 実際の平均 = 57.7

10, 20, 30, 45, 50, 55, 60, 65, 70, 75, 85, 90, 95

階級幅を20とした場合の度数分布表: 平均 = 59.2

誤差: 59.2 – 57.7 = 1.5

誤差の割合: 1.5 / 57.7 = 0.026 (2.6%)

この誤差、そこそこ大きいですよね。

2.度数分布表における平均の数式導出

 (面倒なので省略)

3.検証1:階級幅を変える(データは上記のものを使用)

 階級幅を 1 から 0.01 まで 0.01 刻みで変化させた際の結果

 → 階級幅を小さくすると誤差(%)がゼロに収束してく。

 → 階級幅を 0.223 以下にすると比較的安定する。(例外は0.125。それでも約0.1%)

4.検証2:データの個数を増やす(ダミーデータのデータ範囲は固定:10~95)

 データの個数を上記データの13個から1000個まで変化させた結果:

 → 誤差 0.59% 付近を中心に振動、収束していきそうな雰囲気。

 → データの個数を増やしても、誤差(%)はゼロにはならない模様。

5.結論

 2ケースの検証しかしていないが、それでも次のことは結論づけることができそう。

 1)階級幅は度数分布表の精度に大きく影響する。

 2)精度を上げるには階級幅を小さくする。

 3)しかしそれでは度数分布表を作るメリットが失われる。

 4)データの個数の増大は誤差の振動を抑制する。

 5)しかし、誤差は一定のゼロでない数値に収束していく。

 6)データの個数の増大は度数分布表の平均の精度に寄与するとはいえない。

 7)度数分布表の平均はあくまで近似値。

この記事での結論

他にも検証すべきケースは考えられますが、

誤差は数%(一桁)なので、ザックリ確認ツールの度数分布表の

ザックリ近似値であるということを認識した上で見る分には良いのではと思います。

コメント

タイトルとURLをコピーしました