「平均値は平均ではない」という言葉は、統計学における平均値の扱い方について注意を促すものです。
これは、特に複数のグループの平均値を扱う際に、単純に平均値の平均を取ると、全体の平均値と異なる場合があることを指しています。
なぜ平均値の平均が全体の平均と異なるのか?
その理由は、各グループのデータ数が異なる場合に、それぞれの平均値が全体の平均に与える影響が異なるためです。
具体例
- 例えば、Aクラスの平均点が70点、Bクラスの平均点が80点だったとします。
- 単純に平均の平均を計算すると、(70 + 80) / 2 = 75点となります。
- しかし、Aクラスの生徒数が40人、Bクラスの生徒数が60人だった場合、全体の平均点を計算するには、各クラスの合計点を生徒数で割る必要があります。
- Aクラスの合計点は70点 × 40人 = 2800点
- Bクラスの合計点は80点 × 60人 = 4800点
- 全体の合計点は2800点 + 4800点 = 7600点
- 全体の生徒数は40人 + 60人 = 100人
- 全体の平均点は7600点 / 100人 = 76点
- このように、生徒数を考慮すると、全体の平均点は76点となり、単純な平均の平均である75点とは異なります。
重要なポイント
- 平均値を扱う際には、データ数(または重み)を考慮することが重要です。
- 特に、複数のグループの平均値を比較したり、全体の平均値を推定したりする場合には、注意が必要です。
- 「加重平均」という考え方を用いることで、データ数の違いを考慮したより正確な平均値を算出することが可能です。
つまり、「平均値は平均ではない」とは、平均の平均を算出する際に、データの母数を考慮しないと、正しい平均値を算出することができないという事を示唆しています。
平均値と中央値の違い

平均値と中央値は、どちらもデータの中心傾向を表す指標ですが、計算方法と性質が異なります。それぞれの違いを理解することで、より適切な分析を行うことができます。
平均値
- 定義: すべてのデータを合計し、データ数で割った値です。
- 特徴:
- すべてのデータの影響を受けるため、極端に大きい値や小さい値(外れ値)の影響を受けやすいです。
- データの分布が対称に近い場合に、中心傾向をよく表します。
- 計算例: 1, 2, 3, 4, 10 の平均値は (1 + 2 + 3 + 4 + 10) / 5 = 4 です。
中央値
- 定義: データを大きさの順に並べたときに、ちょうど中央に位置する値です。データ数が偶数の場合は、中央に位置する2つの値の平均値を取ります。
- 特徴:
- 外れ値の影響を受けにくいです。
- データの分布が歪んでいる場合に、中心傾向をより適切に表します。
- 計算例: 1, 2, 3, 4, 10 の中央値は 3 です。
使い分けのポイント
- データの分布が対称に近い場合や、外れ値が少ない場合は、平均値が中心傾向をよく表します。
- データの分布が歪んでいる場合や、外れ値が多い場合は、中央値が中心傾向をより適切に表します。
具体例
- 年収のデータなど、一部の高所得者が平均値を大きく引き上げるような場合には、中央値の方が実態に近い値を示すことが多いです。
- テストの点数など、データの分布が比較的均等な場合には、平均値も中央値も近い値になり、どちらを用いても中心傾向を表すことができます。
さいごに
平均値と中央値は、それぞれ異なる性質を持つため、データの性質や分析の目的に合わせて適切な指標を選択することが重要です。
コメント