Rex 분석 : 결측치대체

  1. 분석모듈 설명
  2.  
    결측치대체는 데이터에 결측치(missing value)가 존재하는 경우, 이를 추정하여 대체할 수 있는 통계분석 모듈입니다. 이 모듈은 다변수 결측데이터(multivariate missing data)에 대해 fully conditional specification을 기반으로 하여 다중 대체값(multiple imputations)을 추정합니다. 선택 가능한 분석변수(analysis variable)의 유형으로는 양적변수(quantitative variable), 명목형 질적변수(nominal qualitative variable), 순서형 질적변수(ordinal qualitative variable)이 있고, 유형에 따라 별도의 모형이 적용됩니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * mice 패키지의 mice 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 양적변수
    • - 분석변수와 예측변수(predictor)로 포함될 변수들의 유형을 양적변수로 지정해줍니다. - 명목형 질적변수, 순서형 질적변수와 중복되어 선택될 수 없습니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다.
    • 명목형 질적변수
    • - 분석변수와 예측변수로 포함될 변수들의 유형을 명목형 질적변수로 지정해줍니다. - 양적변수, 순서형 질적변수와 중복되어 선택될 수 없습니다. - 명목형 질적변수로 선택된 변수들은 문자로 인식되어 분석에 사용됩니다.
    • 순서형 질적변수, 수준
    • - 분석변수와 예측변수로 포함될 변수들의 유형을 순서형 질적변수로 지정해줍니다. - 양적변수, 명목형 질적변수와 중복되어 선택될 수 없습니다. - 순서형 질적변수로 선택된 변수들은 문자로 인식되어 분석에 사용됩니다. - 순서형 질적변수로 포함된 변수를 선택하면 ‘수준 (오름차순)’ 창에 변수에 포함된 수준(level)들이 나타나게 되는데, 드래그를 이용하여 수준의 순서를 조정하여 오름차순으로 정렬해야 합니다. 이 때, 수준의 순서를 변경하지 않으면 자동적으로 알파벳 순으로 정렬되어 분석에 사용됩니다.
    • 분석변수
    • - 결측치를 대체할 대상 변수를 선택할 수 있습니다. - 양적변수, 명목형 질적변수, 순서형 질적변수로 정의된 변수들 중 분석변수에 포함할 변수를 선택하여 ‘분석변수추가’ 버튼을 클릭하여 목록에 추가할 수 있습니다. - 한 개 이상의 분석변수가 선택되어야 합니다. - 선택된 변수는 적어도 하나의 결측치를 포함하여야 합니다. - 예측변수와 중복되어 선택될 수 없습니다.
    • 예측변수
    • - 분석변수의 결측치를 대체할 때 사용됩니다. - 양적변수, 명목형 질적변수, 순서형 질적변수로 정의된 변수들 중 예측변수에 포함할 변수를 선택할 수 있습니다. - 한 개 이상의 변수를 입력할 수 있지만 변수를 선택하지 않아도 분석을 실시할 수 있습니다. - 분석변수와 중복되어 선택될 수 없습니다.
  6. User interface:분석옵션 탭
    • 양적변수
    • - 양적변수의 결측치를 대체하기 위한 방법들을 선택할 수 있고, 분석변수들 중 양적변수가 포함되어 있는 경우에 활성화됩니다. - 적어도 하나 이상의 방법을 선택해야 하며, 중복선택이 가능합니다. - 분석방법에 대한 자세한 설명은 R 패키지 mice mice 함수를 참고하십시오. (아래 표의 약자를 통해 검색할 수 있습니다.)
      약자 분석방법
      pmm Predictive mean matching
      norm Bayesian linear regression
      norm.nob Linear regression ignoring model error
      norm.boot Linear regression using bootstrap
      norm.predict Linear regression, predicted values
      mean Unconditional mean imputation
      2l.norm Two-level normal imputation
      2l.pan Two-level normal imputation using pan
      2lonly.mean Imputation at level-2 of the class mean
      2lonly.norm Imputation at level-2 by Bayesian linear regression
      quadratic Imputation of quadratic term
      ri Random indicator method for nonignorable data
    • 명목형 질적변수
    • - 명목형 질적변수의 결측치를 대체하기 위한 방법들을 선택할 수 있고, 분석변수들 중 명목형 질적변수가 포함되어 있는 경우에 활성화됩니다. - 적어도 하나 이상의 방법을 선택해야 하며, 중복선택이 가능합니다. - 분석방법에 대한 자세한 설명은 R 패키지 mice mice 함수를 참고하십시오. (아래 표의 약자를 통해 검색할 수 있습니다.)
      약자 분석방법
      Logreg Logistic regression
      lda Linear discriminant analysis
    • 순서형 질적변수
    • - 순서형 질적변수의 결측치를 대체하기 위한 방법을 선택할 수 있고, 분석변수들 중 순서형 질적변수가 포함되어 있는 경우에 활성화됩니다. - 적어도 하나 이상의 방법을 선택해야 합니다. - 분석방법에 대한 자세한 설명은 R 패키지 mice mice 함수를 참고하십시오. (아래 표의 약자를 통해 검색할 수 있습니다.)
      약자 분석방법
      polr Proportional odds model
    • 모든 변수타입
    • - 모든 변수타입(any type)의 변수의 결측치를 대체하기 위한 방법들을 선택할 수 있습니다. - 적어도 하나의 방법이 선택되어야 하며, 중복선택이 가능합니다. - 분석방법에 대한 자세한 설명은 R 패키지 mice mice 함수를 참고하십시오. (아래 표의 약자를 통해 검색할 수 있습니다.)
      약자 분석방법
      cart Classification and regression trees
      rf Random forest imputation
      sample Random sample from the observed values
  7. 결과출력창 해석
    • Data Structure: - 전체 관측치 수(the number of observations), 전체변수의 수(the number of variables), 분석에 사용된 변수의 수(the number of used variables)를 나타냅니다.
    • Variable List - Variables - 양적변수, 명목형 질적변수, 순서형 질적변수로 선택된 변수들 중 분석에 사용된 변수를 나타냅니다. - 명목형 질적변수와 순서형 질적변수로 포함된 변수는 무조건 문자형변수로 변환되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다.
    • Variable List - Selected variables: 분석변수와 예측변수를 나타냅니다.
    • Analysis Description - Selected Method - 선택된 분석방법을 변수유형에 따라 나타냅니다. - 변수유형은 총 4가지로, 양적변수, 명목형 질적변수, 순서형 질적변수, 모든 변수타입입니다. - ‘분석방법(약자)’의 형식으로 출력되며, 분석방법에 대한 자세한 내용은 R 패키지 mice mice 함수에서 약자를 검색하여 참고하십시오.
    • Inspecting the missing data
    • - 분석변수의 결측패턴(missing pattern)을 나타냅니다. - 첫 번째 열(column)과 마지막 열을 제외한 나머지 열들은 분석변수를 나타내며, 관측(observed)과 결측(missing) 상태인 관측치의 수가 마지막 열에 나타나게 됩니다. - 마지막 행(row)은 각 분석변수별 결측치의 수와 결측비율을 나타냅니다.
    • Results of missing data imputation
    • - 결측치가 대체된 새로운 변수는 표의 대체변수(imputed variable)의 이름으로 엑셀시트에 저장됩니다. - 이 때, 저장되는 새로운 변수의 이름은 ‘분석변수_분석방법약자’의 형식을 따릅니다.
  8. Warning 메세지
  9. * 아무런 분석변수도 선택되지 않으면 아래의 메시지와 함께 분석이 종료됩니다. (Error: At least one analysis variable should be selected. Analysis has been stopped.)
    * 분석변수에 양적변수가 포함되었으나, 양적변수에 대한 분석방법이 하나도 선택되지 않으면 아래의 메시지와 함께 분석이 종료됩니다.
    (Error: Quantitative variables are included for analysis but no imputation methods for quantitative variables are selected. Analysis has been stopped.)
    * 분석변수에 명목형 질적변수가 포함되었으나, 명목형 질적변수에 대한 분석방법이 하나도 선택되지 않으면 아래의 메시지와 함께 분석이 종료됩니다.
    (Error: Nominal qualitative variables are included for analysis but no imputation methods for nominal qualitative variables are selected. Analysis has been stopped.)
    * 분석변수에 순서형 질적변수가 포함되었으나, 순서형 질적변수에 대한 분석방법이 하나도 선택되지 않으면 아래의 메시지와 함께 분석이 종료됩니다.
    (Error: Ordinal qualitative variables are included for analysis but no imputation methods for ordinal qualitative variables are selected. Analysis has been stopped.)