14.3 欠損データ分析

Mplusは、欠損データによるモデル推定のためのいくつかのオプションを持っている。

連続変数、打ち切り変数、二値変数、順序カテゴリカル変数、名義カテゴリカル変数、カウント、ならびにこれらの型の変数の組み合わせに対し、MplusはMCAR(missing completely at random)、MAR(missing ar random)の下での最尤推定を提供する。MARとは欠損が観察された共変量と観察された結果変数の関数でありうることを意味する。なお、打ち切り変数やカテゴリカル変数についてのWLS推定では、欠損が観察された結果変数の関数であることは許容されるが、観察された結果変数の関数であることは許容されない。共変量がないモデルの場合、これはpairwise present分析に対応している。

カテゴリカル結果変数が欠損の指標であり、欠損を連続潜在変数ないしカテゴリカル潜在変数で予測できる場合、無視可能でない欠損データをモデリングしML推定できる。MLR推定量であれば、すべての結果変数について頑健標準誤差とカイ二乗値を利用できる。非正規の連続結果変数の場合はYuan & BenlerのT2*カイ二乗検定統計量を利用できる。

Mplusはベイズ分析による欠損値の多重代入を提供する。代入に当たっては制約されていないH1モデルと制約されたH0モデルの両方を使用できる。

Mplusには、多重代入によって生成された複数のデータセットを分析するための特別な機能がある。一連の分析を通じてパラメータ推定値を平均することができる。また、一連の分析を通じた標準誤差の平均と分析間でのパラメータ推定値の分散を使って、標準誤差を計算することができる。

どのようなモデルであっても、観察された共変量における欠損は許容されない。なぜなら、観察された共変量はモデルの一部ではないからである。モデルは共変量に条件付けられて推定されるのであり、共変量の分布についてはなにも想定されない。共変量の欠損をモデル化するためには、共変量をモデルに組み込み、正規性のような分布の想定を行う必要がある。

欠損データの場合、パラメータ推定値は観察された情報行列を使って推定される。また、ブートストラップ法による標準誤差や信頼区間も利用できる。

欠損データの場合、最初に記述的分析で欠損率を調べることが有用である。ANALYSISコマンドでTYPE=BASICと指定した場合にはこの記述的分析が行われる。出力には、変数ならびに変数ペアについての、欠損パターンと割合(カバレッジ)が含まれる。デフォルトでは、モデルの推定のための最低のカバレッジ割合は0.10である。この値はANALYSISコマンドのCOVERAGEオプションで変更できる。

1. デザインによる欠損

どの被験者をどの指標について観察するかを研究計画上で決めているとき、デザインによる欠損が生じる。例として以下があげられる。

個人の下位集団をランダムに選び、それらの下位集団に対して異なる測定手法を使った場合。
すべての対象者からすべての変数のデータを集めるのが高コストであるため、ランダムに決めた下位集団について一部の変数のみを測定した場合。
多重コホート分析。異なる出生コホートに属する個人について、複数時点での反復測定を行った場合。

こうしたタイプの研究では、分析変数の一部についてデザインによる欠損が生じている個人を含めたすべての個人のデータを用いて分析する欠損データ分析手法を用いることができる。

このタイプの分析では、データセットにおいて欠損値のフラグを表している値を、VARIABLEコマンドのMISSINGオプションで指定する。また、個人が値を持つべき変数を、VARIABLEコマンドのPATTERNオプションで指定する。

2. 多重コホート・デザイン

縦断調査研究では、出生年で定義した個人の集団、すなわちコホートについてのデータを集めることが多い。これにより、研究の長さよりもより広い年齢範囲を通じた発達を研究することができる。これをacceleratedコホートデザイン、ないし系列コホートデザインという。こうした研究においては、測定時点を通じた結果の発達ではなく、年齢を通じた結果の発達に関心がもたれる。従属変数が連続尺度で測定されている場合、測定時点を時間変数にするのではなく、年齢を時間変数にするようにデータを再配置するオプションを利用できる。このオプションはTYPE=GENERALの場合にのみ利用できる(ただしALGORITHM=INTEGRATIONの場合は利用できない)。

時点が観察時点を表している形式の縦断データを、時点が年齢ないし他の時間関連的変数を表している形式へと変換するためには、DATA COHORTコマンドを用いる。測定年とコホート年のちがいは、測定時点での個人の年齢である。各コホートにおける欠損値のパターンを決めるためには年齢が用いられる。もしある個人がある特定の年齢に関する情報を持たない場合その個人においてその値は欠損となる。変換されたデータセットは欠損データのためのML推定によって分析できる。

3. 多重コホート・データの再配置

多重コホート分析での関心事は、調査年の間での変数の変化ではなく、年齢とともに生じる変数の変化である。この問いに答えるためには、年齢が時間変数となっているデータセットが必要である。以下では、DATA COHORTコマンドによるデータ変換の方法について例示する。

以下のデータセットでは、過剰飲酒(HD)という変数が、1982年, 1983年, 1987年, 1989年に測定されている。欠損データはアスタリスク(*) で示されている。対象者には、1963年, 1964年, 1965年生まれの個人が含まれている。いずれのコホートにおいても、各対象者は4回だけ測定されているが、すべてのコホートを通じてみると、年齢は17歳から26歳まである。

Observation Cohort HD82 HD83 HD87 HD89
     1        63     3    4    5    6 
     2        63     *    6    7    8 
     3        63     9    8    *    3 
     4        63     5    7    6    3 
     5        63     5    8    7    9 
     6        64     3    6    5    9 
     7        64     3    8    *    5 
     8        64     4    9    8    6 
     9        64     4    *    6    7 
    10        64     3    9    8    5 
    11        65     *    4    5    6 
    12        65     6    5    5    5 
    13        65     5    5    5    5 
    14        65     4    5    6    7 
    15        65     4    5    5    4

上の表は変換前のデータを示している。まず、1982年, 1983年, 1987年, 1989年について完全なデータをもたないオブザベーションを取り除く。

Observation Cohort HD82 HD83 HD87 HD89
     1        63     3    4    5    6 
     4        63     5    7    6    3 
     5        63     5    8    7    9 
     6        64     3    6    5    9 
     8        64     4    9    8    6 
    10        64     3    9    8    5 
    12        65     6    5    5    5 
    13        65     5    5    5    5 
    14        65     4    5    6    7 
    15        65     4    5    5    4

次に、年齢が時間軸になるようにデータを再配置する。アスタリスク(*)はデザインによる欠損である。

Obs Coh HD17 HD18 HD19 HD20 HD22 HD23 HD24 HD25 HD26
  1  63   *    *    3    4    *    *    5    *    6
  4  63   *    *    5    7    *    *    6    *    3
  5  63   *    *    5    8    *    *    7    *    9
  6  64   *    3    6    *    *    5    *    9    *
  8  64   *    4    9    *    *    8    *    6    *
 10  64   *    3    9    *    *    8    *    5    *
 12  65   6    5    *    *    5    *    5    *    *
 13  65   5    5    *    *    5    *    5    *    *
 14  65   4    5    *    *    6    *    7    *    *
 15  65   4    5    *    *    5    *    4    *    *

MODELコマンドで指定されるモデルでは、オリジナルの変数hd82, hd87, hd89ではなく、新しい変数hd17～hd26を用いる。hd21はないことに注意されたい(調査年と出生コホートの組み合わせのうち、この年齢を表す組み合わせはない)。このデータを、デザインによる欠損の機能を用いて分析する。

Last Update: 2020/03/10