棒グラフと混同されがちなヒストグラム。データのばらつきかたを表現するのが得意なグラフで、「度数分布図」「柱状グラフ」などとも呼ばれています。以前は中学校で習っていたヒストグラムですが、2020年4月から小学校で学習するようになり、より身近なグラフタイプになっています。ここでは、ヒストグラムの使い方や見かた、作成時の注意点などを紹介します。
ヒストグラムは、あるデータを区間ごとに区切り、各区間の個数や数値のばらつきを表現するグラフです。
例えば、全国の20代の睡眠時間について調査した場合に、膨大な量の個人のデータをパッと見ても何が何やらわかりません。それを、「6時間未満」「6~7時間未満」というように区間を区切って人数を集計し、それを元にヒストグラムにしてみます。
ヒストグラムにすることで、データがどのようにばらついているか把握しやすくなり、「大部分の人は7~8時間睡眠している」などデータの特徴をすぐに見て取れます。
この例での左側の表のことを「度数分布表」といい、区切った区間を「階級」、それぞれの階級での人数を「度数」といいます。
ヒストグラムは棒グラフと似ているので、作図の際には、棒グラフとの違いを意識することが大切です。
ヒストグラムは各階級の長方形の間隔をなくすことで、連続していることを表現しているので、必ず間隔を開けずに並べます。
出典:e-Stat「飲酒の頻度別、飲酒日の1日当たりの飲酒量」
棒グラフの場合は横軸の項目を自由に並べ替えできますが、ヒストグラムの横軸は一連のデータの階級なので並べ替えができません。
ヒストグラムは階級の幅によって、見え方が大きく変わります。
下の2つのグラフは両方とも1951~2020年の台風の発生数をヒストグラムにしたものです。左のグラフでは階級幅を大きくとりすぎて分布がわかりづらい一方、右のグラフではデータのデータの中心位置や、偏りがうまく表現されています。
階級幅の決め方にルールはありませんが、グラフを一目見て分布の特徴を捉えられるように、以下の点に注意するとよいでしょう。
もし、どの範囲にデータが多いかが分かっている場合は、その範囲を重点的に階級幅を設定することでわかりやすくなります。また、ほかの方法として、「スタージェスの公式」を階級幅を決めるための目安として使うこともできます。
複数のヒストグラムを比較すると、平均値や最大値、最小値といった指標ではわからなかったデータの特徴を表現することができます。
複数のヒストグラムを比較する例として有名なのは、男女別に年齢ごとの人口を表現した人口ピラミッドがあります。たとえば、過去のデータや国ごとに比較したりすることで、現在の労働力人口や高齢化問題などを考えるときの参考になります。