サンプルサイズを考慮した AIC
既存の estat ic
および estimates stats
コマンドにcorrected AIC(AICc)および
consistent AIC(CAIC)という2つの新しいモデル選択規準が追加されました。新しいオプション all
を使用すると、
利用可能な全ての情報量規準が表示されます。また、新しいオプション df()
を使用して、情報量規準を
計算するための自由度を指定できます。
モデル選択は統計分析において非常に重要であり、情報量規準はモデル選択のためによく使われる統計手法の一つです。
Stataでは、対数尤度を報告するほとんどの推定コマンドを実行後に、以下のコマンドを実行してAICcとCAICをそれぞれ
計算することができます。
. estat ic, aiccorrected
. estat ic, aicconsistent
4つの情報量規準(AIC, BIC, AICc, CAIC)を出力するには以下のように入力します。
. estat ic, all
線形混合モデルなどの分析では、規準の計算に使用する自由度や観測値の数を手動で指定する場合があります。
これは、 n()
および df()
オプション を指定することで行うことができます。
. estat ic, n(500) df(10) all
これらの新しい規準やオプションは、 estimates stats
コマンドでも利用できます。
操作例
小規模サンプルに対する情報量規準の使用
サンプルサイズが小さいデータセットに対して情報量規準を算出します。
このようなデータセットでは、AICよりもAICcの方が信頼性は高いと見なされています。
具体的には、保険のタイプに関する2つの多項式モデルを比較します。
1つはダミー変数 site
を含まず、もう1つは含んでいます。
ここでいうダミー変数 site
は研究が行われた場所を示しています。
また、サンプルサイズを87に減らすために、30歳未満の条件を指定します。
. webuse sysdsn1
. mlogit insure age i.male i.nonwhite if age < 30
. estat ic, all
. mlogit insure age i.male i.nonwhite i.site if age < 30
. estat ic, all
AICは、ダミー変数 site
を含むモデルが好ましいことを示していますが、一方でAICcは逆を示しています。
自由度の指定
制約付き最大尤度法を用いて線形混合モデルを適合させる際に、
特にモデル間で固定効果の仕様が異なる場合には注意が必要です。
n()
および df()
オプションを使用して、情報量規準の計算に使用される観測値と自由度のデフォルト値を
変更する方法を示します。以下の2つのモデルを比較したいと仮定します。
. webuse productivity
. mixed gsp private emp hwy water other unemp || region: || state:, reml
. estimates store model1
. mixed gsp private emp hwy unemp || region: hwy || state: unemp, reml
. estimates store model2
これらの2つのモデルは、固定効果とランダム効果が共に異なります。
そのため、通常の情報量規準でモデルを比較すると信頼性の問題が生じます。
以下では、手動で n()
および df()
を指定してモデルを比較可能にします。
各モデルについて、n()
の値は観測値の数から固定効果パラメータの数を引いたもので計算され、
df()
はランダム効果パラメータの数を示します。
. estimates restore model1
. estat ic, n(809) df(3)
. estimates restore model2
. estat ic, n(811) df(5)
AICとBICともに2つ目のモデルが好ましいことを示しています。
参考
AICcとCAICに関する詳しい内容については、マニュアルをご覧ください。