多重代入・多重代入法(Multiple Imputation Method)

多重代入とは、欠損値の影響でモデルのパラメータにバイアスが生じていることが心配される場合に用いる統計手法の一つです。
絶対的な方法は存在しないので、いくつかの方法を試して感度分析まで実行する「時間の余裕」が必要です。

統計ソフトウェアStataの多重代入機能(miコマンド)は、不完全なデータ(一部の値が欠落しているデータ)を分析する際に用いられます。
miには代入に関するステップと推定に関するステップの双方が含まれています。
miの推定ステップは個々のデータセットに対する推定機能に加えて、簡単な操作手順でプーリングする機能もカバーしています。
またデータ中の欠損値のパターンを調べる機能も用意されています。柔軟な代入手法が用意されていますが、その中には5種類の単変量代入法(多変量代入のための構成要素として使用可能)の他に多変量正規(MVN)代入法が含まれています。
miは既に代入済みのデータをインポートする機能の他に、それらの管理に必要な機能も一式用意しています。
miはNHANESまたはiceの形式の代入済みデータをインポートすることができますが、オリジナルのデータから始めて代入データを自分で構成することもできます。
複数コピーのデータを扱うことはトラブルの元となりますが、miではそれに対する対処がなされています。
すなわちmiはwide, mlong, flong, flongsepという4種類の形式のいずれかの形にデータを編成します。
flongsep形式の場合には、それぞれの代入データセットは単独のファイルとなります。その他の形式の場合、データは一つのデータセットに結合されます。
それぞれの形式にはそれぞれ独自の長所がありますが、形式を切替えることもmiでは容易に行えます。それぞれの処理ごとに最適な形式を用い、形式を切替えながら処理を進めて行くといったアプローチを取ることができます。
すべてのmiコマンドはこれらすべての形式に対応しています。
データ管理機能も一式提供されています。通常のデータセットに対する操作と同様の形で変数の生成や削除、あるいは観測値の生成や削除が行えます。それぞれの代入データセットにそれらを正しく反映させる操作はmiが自動的に行います。
MIデータを他のデータセット(通常のもの、またはMI)とmergeさせたり、appendさせたりことができます。
また代入された値を別のデータセットにコピーすることもできます。生存データを扱っている場合には、通常の場合と同じように、時間帯のsplitやjoinが行えます。
パネルデータを扱っている場合には、通常の場合と同じように、reshape操作を行うことができます。ある操作に伴い、5個、50個、あるいは500個のデータセットに対して同じ操作が必要となったとしても、操作上は見えません。

多重代入 機能一覧

代入手法

  • 多変量正規

任意の欠損値パターンを持つ複数変数に対してはMVNモデルを用いた欠損値の代入が行えます。

  • 連鎖方程式
  • 単一方程式

単一の変数中における欠損値に対して次の手法のいずれかによって代入を行います。
これらを任意に組み合わせることによって、単調な欠損値パターンを有する複数変数中の欠損値に対して代入操作を行うことができます。(例えばx1に対してはpredictive mean matching法を、x2に対しては順序ロジスティック法を用いて、x1, x2双方に対する代入操作が行えます。)
代入された変数に対する予測方程式をカスタマイズすることができます(例えばx1に対するモデルからz2を省略するなど)。
変数ごとに異なる観測値を用いて欠損値の代入操作が行えます(例えば1日当りの喫煙量については喫煙者のみを対象として、一方、体重については全観測値を対象に欠損値の代入を行うなど)。
代入変数に対する数式中で既に代入済みの変数を含む数式を使用できます(例えばx1に対して代入を行った後、x2に対する代入モデル中でx12を含めるなど)。

  • 線形回帰
  • 予測平均マッチング
  • 切断型回帰
  • 区間回帰
  • ロジスティック
  • 順序ロジット
  • 多項ロジット
  • ポアソン
  • 負の二項
  • ユーザ定義

重み付きデータやサーベイ重み付きデータに対しても MVN を除く上記すべての手法が適用できます。

データ管理

  • 欠損値のテーブル化
  • 欠損値パターンの要約変数作成
  • 変動、超変動変数の特定
  • 代入結果に対するコマンド実行
  • 外部データのエクスポート/インポート
  • 代入変数の関数生成

推定と推論

複数の係数値に関し同時に検定を実行します。欠損情報の割合が均一/不均一との仮定のもとでの検定が行えます。小標本補正の機能が用意されています。

  • 各データセットからの結果の自動プーリング
  • 係数の複合検定
  • 係数の線形/非線形変換
  • 線形/非線形MI予測

推定後セレクタ

  • 使用可能な推定後機能の一覧
  • コマンド実行ごとの一覧の自動更新

ユーティリティ

  • 多重代入データセットのスタイル変更
  • データセットの抽出
  • データ一貫性の検証と修復

コントロールパネル

この制御パネルは数多くのmiの機能を統一的なインタフェースで提供するものです。欠損値とそのパターンの調査といった最上流の過程から最下流のMI推論の過程に至るまで、一貫した形でサポートしています。
欠損値のパターンをチェックし適切な代入法を決定するためには、「分析」ツールを使用します。
データをmiで扱えるようにするためには 「設定」を使用します。
代入操作を行うためには 「代入」を使用します。
既に代入操作が済んでいるのであれば「設定」をスキップ、直接「インポート」に進んでインポート操作を行います。
miデータに対して新変数の生成、データのmergeやreshape、その他のデータ管理コマンドを使用する場合には「管理」パネルを利用します。
準備が整ったら「推定」を用いてモデルの選択を行います。用意されているダイアログタブを利用することによって、MI推定モデルを簡単に構築することができます。
「検定」パネルを使用すると仮説検定の機能を実行させることができます。

  • 操作全体に対する一貫したガイド
  • データの設定と欠損値の代入、またはデータのインポート
  • データ管理の実行
  • 推定と推論の実行
  • コマンドログによる再現性の確保
コントロールパネル

例題集

下記の機能の操作方法を解説した日本語の例題集をご用意しております。

  • 多重代入の事前準備、代入方法
  • 代入後の推定方法、結果の統合方法

詳細資料

詳細は、開発元StataCorp.の機能紹介ページにあるマニュアルをご覧ください。

The Stata News

In the spotlight: Using margins to interpret choice model results

開発元StataCorp.のトレーニングコース

Stata is a registered trademark of StataCorp LLC, College Station, TX, USA, and the Stata logo is used with the permission of StataCorp.

page_top_icon