散布図は、棒グラフや円グラフのように日常的に目にする機会は少ないですが、「QC七つ道具」や「統計3大グラフ」の一つとしてビジネスの現場で重宝されているグラフ形式です。ここでは、散布図の使い方や見かた、注意点などを紹介します。
散布図は2つのデータの関係を示すのに適したグラフです。たとえば、全国の気象官署におけるの年間日照時間と年平均気温のデータを散布図にしてみます。
1つ目の要素を横軸、2つ目の要素を縦軸にしてデータをグラフ上にプロットしていき、点のばらつきをみることで2つのデータの関係を見て取れます。この場合は、「年間日照時間」が長いほど「年平均気温」が高い傾向にある、ということが直感的にわかります。
また、散布図は、製造現場などで、「比重と強度」、「温度と収量」といった2つのデータにおいて、改善につながる関係性を見つけるときなどに使われています。
データ項目であるポイント数が多い方がデータの傾向がつかみやすくなります。どんなに少なくても10点以上はあった方がよいでしょう。また、横軸は右に行くほど大きい値、縦軸は上に行くほど大きい値にします。
また、他のグラフ形式と違って、散布図で伝える内容はデータ同士の関係です。他のグラフのように比較や偏りを「どう見せるか」ではなく「何を見せるか」を考えたデータ選びを心掛けましょう。そうしないと、「なぜその2つのデータを取り上げたのか?」と疑問を持たれるかもしれません。
「相関関係」と「因果関係」の違いをはっきり理解していないと、データが示す意味を正しく理解できなくなるので注意が必要です。
相関関係:AとBに何らかの関係があるように見えること。例えば、「Aが大きいとBも大きい」という関係。
因果関係:AとBのどちらかが原因でどちらかが結果である状態。例えば、「Aが~だからBが~になる」という関係。
例えば、下のグラフは、各都道府県で、過去一年間に何らかのスポーツをした人の割合と、海外旅行に行った人の割合を散布図にしたものです。
出典:総務省統計局「社会生活統計指標-都道府県の指標-2021」
両者に何らかの関係があるように見えるので、相関関係があると言えますが、因果関係についてはどうでしょうか。このグラフを見た人が「よし!海外旅行に行くために、みんなスポーツをしよう!」と呼び掛けていたら、ずいぶんトンチンカンなことを言っているな、と思うのではないでしょうか。
このように、相関関係があるからといって、因果関係があるとは限らないので、はやとちりしないように注意が必要です。
一見、相関関係がない散布図に見えても、年齢、性別、地域、時間帯などデータの関する要素で層別することで、今まで見えていなかった情報が手に入る可能性もあります。散布図においては、要素ごとに色分けすることで表現します。
上の図の場合、全ての点を同じ色にした左のグラフでは相関がないように見えますが、右のグラフのようにアヤメの種類で層別することで、がく片の長さと幅に相関がみられるようになります。
散布図の点を「バブル」という大きさを持たせた点にしたグラフがバブルプロットです。通常の散布図が2つのデータを表現するのに対し、バブルプロットは3つのデータを平面上に表現できます。
下のグラフでは、都道府県別の年間の乗合バス輸送人員と1世帯当たり自家用乗用車数の散布図において、バブルの大きさで人口を表現しています。このグラフから、バスを利用する人が多い場所は、人口が多く、かつ、乗用車の保有数が低いようだということがわかります。
出典:一般財団法人自動車検査登録情報協会「都道府県別の自家用乗用車の普及状況」
国土交通省「自動車輸送統計調査」
なお、バブルプロットではポイント数があまり多いと見にくくなることがあるので注意が必要です。
2つ以上のデータがある場合に、すべての組み合わせでつくった散布図をリーグ戦の表のように並べたものが散布図行列です。データがたくさんあってどれを組み合わせたら良いかわからない場合に、相関がありそうな組み合わせを視覚的にとらえることができます。
下図は、映画館のスクリーン数や公開本数など映画に関する様々なデータから作成した散布図行列ですが、入場者数と興行収入の組み合わせで最も強い相関関係がみられることが一目瞭然です。