多重代入・多重代入法(Multiple Imputation Method)
多重代入とは、欠損値の影響でモデルのパラメータにバイアスが生じていることが心配される場合に用いる統計手法の一つです。
絶対的な方法は存在しないので、いくつかの方法を試して感度分析まで実行する「時間の余裕」が必要です。
統計ソフトウェアStataの多重代入機能(mi
コマンド)は、不完全なデータ(一部の値が欠落しているデータ)を分析する際に用いられます。
mi
には代入に関するステップと推定に関するステップの双方が含まれています。
mi
の推定ステップは個々のデータセットに対する推定機能に加えて、簡単な操作手順でプーリングする機能もカバーしています。
またデータ中の欠損値のパターンを調べる機能も用意されています。柔軟な代入手法が用意されていますが、その中には5種類の単変量代入法(多変量代入のための構成要素として使用可能)の他に多変量正規(MVN)代入法が含まれています。
mi
は既に代入済みのデータをインポートする機能の他に、それらの管理に必要な機能も一式用意しています。
mi
はNHANESまたはiceの形式の代入済みデータをインポートすることができますが、オリジナルのデータから始めて代入データを自分で構成することもできます。
複数コピーのデータを扱うことはトラブルの元となりますが、mi
ではそれに対する対処がなされています。
すなわちmi
はwide, mlong, flong, flongsepという4種類の形式のいずれかの形にデータを編成します。
flongsep形式の場合には、それぞれの代入データセットは単独のファイルとなります。その他の形式の場合、データは一つのデータセットに結合されます。
それぞれの形式にはそれぞれ独自の長所がありますが、形式を切替えることもmi
では容易に行えます。それぞれの処理ごとに最適な形式を用い、形式を切替えながら処理を進めて行くといったアプローチを取ることができます。
すべてのmi
コマンドはこれらすべての形式に対応しています。
データ管理機能も一式提供されています。通常のデータセットに対する操作と同様の形で変数の生成や削除、あるいは観測値の生成や削除が行えます。それぞれの代入データセットにそれらを正しく反映させる操作はmi
が自動的に行います。
MIデータを他のデータセット(通常のもの、またはMI)とmergeさせたり、appendさせたりことができます。
また代入された値を別のデータセットにコピーすることもできます。生存データを扱っている場合には、通常の場合と同じように、時間帯のsplitやjoinが行えます。
パネルデータを扱っている場合には、通常の場合と同じように、reshape操作を行うことができます。ある操作に伴い、5個、50個、あるいは500個のデータセットに対して同じ操作が必要となったとしても、操作上は見えません。