箱ひげ図
箱ひげ図は、カテゴリ変数の各グループについて連続変数の分布を視覚化するためによく使用されます。
Stata の graph box
コマンドを使用してシンプルな箱ひげ図を作成することも、
オプションを追加してより洗練されたグラフを作成することもできます。
まず、nhanes2l データセットを開き、tabstat
を使用して、
変数 hlthstat の各カテゴリの年齢の最小値、最大値、25 パーセンタイル、50 パーセンタイル、および 75 パーセンタイルを
表示してみましょう。
. webuse nhanes2l
. tabstat age, statistics(min p25 p50 p75 max) by(hlthstat)
graph box
を使用して、hlthstat の 5 つのカテゴリの年齢のシンプルな箱ひげ図を作成しましょう。
. graph box age, over(hlthstat)
各ボックスの中央線は、変数 hlthstat の各カテゴリの年齢の 50 パーセンタイル (中央値) を表します。 各ボックスの下部は年齢の 25 パーセンタイルを表し、各ボックスの上部は 75 パーセンタイルを表します。 四分位範囲は、75 番目と 25 番目の四分位の差です。ボックス下部のひげは、 25 パーセンタイルから四分位範囲の 1.5 倍を引いた値に等しくなります。 ボックス上部のひげは、75 パーセンタイルに四分位範囲の 1.5 倍を加えた値に等しくなります。
次に、グラフにタイトルを追加しましょう。コマンドを 2 行に渡って記述するために「///」を使用していることに 注意してください。コマンド ウィンドウではこれを使用することはできませんが、do ファイルで長いグラフコマンドを 記述するときに便利です。
. graph box age, over(hlthstat) ///
title("Box plot of age by health status")
グラフを回転して横棒グラフにすることもできます。これは、カテゴリ名が長い場合に便利なオプションです。
. graph hbox age, over(hlthstat) ///
title(""Box plot of age by health status")
diabetic と hlthstat のカテゴリのボックス プロットを表示することもできます。
. graph hbox age, over(diabetes) over(hlthstat) ///
title("Box plot of age by diabetes and health status")
asyvars オプションを追加して、糖尿病のある人とない人のボックスを異なる色でプロットすることもできます。
. graph hbox age, over(diabetes) over(hlthstat) asyvars ///
title("Box plot of age by diabetes and health status")
また、legend() オプションを使用して、タイトルの下に 1 行で凡例を表示できます。
. graph hbox age, over(diabetes) over(hlthstat) asyvars ///
title("Box plot of age by diabetes and health status") ///
legend(rows(1) position(12))
箱ひげ図をカスタマイズするために使用できるオプションは他にも多数あり、詳しくはマニュアルを参照してください。
参考
さらに詳しい内容につきましては、下記のマニュアルをご覧ください。