統計学ではさまざまなデータを扱いますが、それぞれのデータの特徴を捉えるのはとても重要です。
ここでは、データを代表する平均値や中央値といった値や、データの傾向を読み取るために作成するグラフについて、かんたんにご紹介します。
データの特徴を捉える上で、そのデータの「標準」を表す代表値を知ることはとても大事なことです。一般的に使われている代表値は、次の3つです。
平均値(へいきんち):すべてのデータを足し合わせてデータの個数で割った値
中央値(ちゅうおうち):データを大きさ順に並べ替えたときにちょうど真ん中にくる値
最頻値(さいひんち):データの中で最も頻繁に出現する値
具体例を見ていきます。5人の小学生に先週の外食回数を尋ねた結果から平均値、中央値、最頻値を求めてみると以下のようになります。
この結果を見たAさんが、「友達は平均で週に2回外食しているよ。うちも外食増やそう!」と言った場合、お母さんはなんと答えるでしょうか。統計が得意でないお母さんだったら、「あらそうなの。もう少し奮発してみるわ。」と答えるかもしれません。
しかし、統計が得意なお母さんだったらどうでしょう。「Cくんの5回はちょっと極端じゃない?しかも最頻値は1かぁ。それなら、ほとんどの友達と同じくらい外食してるってことだし、このままで良いね。」と答えるでしょう。
この例でのCくんのように、ほかの値から大きく外れた値のことを「外れ値(はずれち)」といいます。平均値は外れ値の影響を受けやすく、「データの代表」になれないことがあります。各代表値にはそれぞれ弱点があるので、それを考慮した上でどれを使用するか考える必要があります。
平均値:すべての値を使うため、外れ値があった場合に影響を受けやすい
中央値:データ全体ではなく真ん中だけを示すので、データ全体の変化や比較には向かない
最頻値:データがばらついていて同じ値がない場合など、特にデータ数が少ないときに「一番個数が多い」値には意味がない
平均値や中央値などの代表値がわかると、今度はデータの中のある値が他と比べて大きいのか小さいのか知りたくなります。
学生の場合、試験のたびに自分の点は平均点より良かったか、学年全体でみてどのくらいの成績なのか気になりますね。そのためには、代表値のほかに学年全員の点数のばらつきを見る必要があります。
学年全員である100人分の試験の点数が羅列された表を見てもよくわからないので、点数の範囲を区切ってまとめ、さらにそれをグラフとして表現してみます。
作成したグラフを見ると、多くの学生の点数が80点前後であることがすぐにわかります。また、自分の点数が92点だった場合に高い方から数えて13番以内にいることもすぐに確認できます。
ヒストグラムを作成することで視覚的に確認できたデータのばらつきですが、数値でも表すことができます。
範囲(はんい):データがどこからどこまでの範囲で分布しているかを示す。データの最大値から最小値までの範囲のこと。
標準偏差(ひょうじゅんへんさ):データのばらつきを示す数値。標準偏差が大きいほどデータがばらついている。英語のStandard Deviationを略してSD、あるいは単に、s や σ のように表記されることもある。
例えば、家にあった2種類の枝豆について、1つのさやに入っている豆の数を数え、それぞれの範囲と標準偏差が次のようになりました。
枝豆A:範囲1~2、標準偏差0.50
枝豆B:範囲1~4、標準偏差0.75
※実際に数えました。
くらべてみると、範囲が広く、標準偏差も大きいのは、枝豆Bなので、枝豆Aよりも枝豆Bの方がばらついている、ということが言えそうです。
実際の集計データである右の表で確認すると、やはり枝豆Bの方がばらついていますね。
ほかにも四分位範囲という値を使うことでも、ばらつきを示すことができます。
四分位範囲(しぶんいはんい):データの中央の50%部分。四分位範囲が大きいほどデータがばらついている。
例えば、家にあるジャガイモの重さを量り、軽いものから並べてみた場合の四分位範囲の考え方は、下の図のようになります。
※実際に量りました。
四分位範囲が大きいほど、データの散らばり具合は大きく、四分位範囲が小さければデータが密集しています。
別の日に同じ数のジャガイモの重さを量ったとき下図のようになった場合、データ全体を確認しなくても四分位範囲の大小で、どちらがばらついているかすぐにわかります。
さまざまなデータを用いる研究の中では、すべてのデータを表やグラフとして掲載すると膨大なページ数になるため、これらの値がよく使用されます。
箱ひげ図は、データの範囲や四分位範囲といったデータのばらつきを表現できるグラフです。下の図のように長方形の「箱」と「ひげ」と呼ばれる線で構成され、箱の中に引かれた線はデータ全体の中央値を示しています。
箱ひげ図は、この図の左側にあるA~Dのように区分できます。この4つの区間のなかに、それぞれ同じ個数のデータが入っていますが、その区間の長さの違いからデータのばらつき具合を確認できます。
この図だけではわかりづらいので、実際のデータを箱ひげ図で表現してみます。四分位範囲を考えるときに扱ったジャガイモのデータを使って、箱ひげ図を作成すると下の図のようになります。
左側の赤い箱ひげ図を例に見ると、最大値が66g、第3四分位数が60g、中央値が49g、第1四分位数が42g、最小値が37gであることがわかります。「×」の印は平均値を示していますが、このように箱ひげ図の中で平均値を表す場合もあります。
2つの箱ひげ図を比較すると、中央値は同じ値ですが、青い箱ひげ図の方がひげの上端からひげの下端までの長さが長く、中央値からみて上側の箱の高さが高いことがわかります。このことから「別の日に量ったジャガイモ」の方がばらついていて、少し大きめのジャガイモがあるようだ、ということがわかります。
このように、複数の箱ひげ図を並べることでさまざまなデータを比較することができます。箱に入った野菜や果物を買うとき、箱ひげ図で中身のばらつきを表示してくれると、どの箱を買うか悩まなくなるかもしれないですね。