箱ひげ図はボックスチャートとも呼ばれ、その名の通りデータの分布を「箱」と「ひげ」を使って表したグラフです。散布図、ヒストグラムとともに「統計3大グラフ」とも呼ばれています。見かたを知らないと「なんだこれ?」というグラフですが、データがどのように散らばっているか、あるいは、どのあたりに集中しているかなど、多くの情報が盛り込めるとても便利なグラフです。
箱ひげ図の見かたを説明する前に、どんな統計量を表すことができるかを見てみましょう。
範囲(はんい):データがどこからどこまで分布しているかを示す。データの最大値~最小値までの範囲。
中央値(ちゅうおうち):データを大きさ順に並べ替えたときにちょうど真ん中にくる値
四分位範囲(しぶんいはんい):データの中央の50%部分。四分位範囲が大きいほどデータがばらついている。
では実際に箱ひげ図を見てみます。下の図のように長方形の「箱」と「ひげ」と呼ばれる線で構成され、箱の中に引かれた線はデータ全体の真ん中の値である、中央値を示しています。
図の左側にあるA~Dのように区分できます。この4つの区間のなかに、それぞれ同じ個数のデータが入っていますが、その区間の長さの違いからデータのばらつき具合を確認できます。
例えば、下の3つの箱ひげ図はすべて中央値は3ですが、データのばらつき方が違うことがすぐにわかります。
では、実際の箱ひげ図を見てみましょう。下図は、家にあったジャガイモを半分に分けて、それぞれを量ったときの結果を箱ひげ図にしています。
たとえば、左にある赤い箱ひげ図では以下のことが読み取れます。
最大値:66g、第3四分位数:60g、中央値:49g、第1四分位数:42g、最小値:37g
2つの箱ひげ図を比較すると、中央値は同じ値ですが、青い箱ひげ図の方がひげの上端からひげの下端までの長さが長く、中央値からみて上側の箱の高さが高いことがわかります。このことから「2回目に量ったジャガイモ」の方がばらついていて、少し大きめのジャガイモがあるようだ、ということがわかります。
「×」の印は平均値を示していますが、このように箱ひげ図の中で平均値を表す場合もあります。
データのなかで他の値から大きく外れた値(外れ値)がある場合、データのばらつきを確認するのがむずかしくなる可能性があるので、外れ値を除いてひげを表示することを検討します。
外れ値を除いたひげを描く場合よく使用される方法として、箱の両端から、箱の長さの1.5倍の範囲にある最大値/最小値でひげを描く方法があります。ひげの範囲より外にあるデータは、外れ値として「◆」等のシンボルで表します。
下の2つのグラフは同じデータから作図していますが、左図のように最小値/最大値をひげとすると、どのデータもばらつきが大きくみえるため比較が難しくなります。
一方で、右図のように外れ値を除いた箱ひげ図の場合、極端なデータに引きずられることなくデータのばらつきを把握でき、例えば、千代田区と北区は花粉飛散量のばらつきが小さそうだ、ということが確認できます。
出典:東京都アレルギー情報navi.「過去の飛散花粉数データ」
ほかにも、データの上下から10%あるいは5%の位置にある点をひげの両端として描くこともあります。インターネットや新聞で箱ひげ図を見かけたときは、ひげの両端が何を表しているかしっかり確認する必要がありますね。
データの分布のしかたや最頻値(データの中で最も頻繁に出てくる値)がわかりやすいヒストグラムと比べて、箱ひげ図は、最大値、最小値、四分位数、四分位範囲といったデータを代表する値が一目でわかります。
また、箱ひげ図の場合、平均値や外れ値を併せて記入することもありますが、情報量が増えてもあまりそこまで複雑にならないのも魅力です。
データのばらつきはヒストグラムでもみることができますが、複数のデータのばらつきを比較するためにたくさんのヒストグラムを並べる、というのはあまり現実的ではありません。一方で、箱ひげ図の場合は複数並べて表示することで様々なデータのばらつきを比較する事ができます。
令和2年度のセンター試験では、下図のような47都道府県のデータを比較するような箱ひげ図が使用されていますが、これをヒストグラムで作成したら、、、と考えるとそれだけで気が遠くなってしまいますね。
箱ひげ図に似ているグラフとして、バイオリン図があります。箱ひげ図と同じようにデータの分布の可視化や比較に使われますが、ヒストグラムのようにデータの分布がそのまま図に表現されるため、よりわかりやすく比較できるグラフです。
上の図のように、バイオリン図の内側に中央値(または平均値)と四分位範囲を表示することが多く、データ数があまり多くない場合は、点や線でデータを描画することもあります。
なお、バイオリン図では以下の点に注意が必要です。