Rex 분석 : 다항자료회귀분석

  1. 분석모듈 설명
  2. 다항자료회귀분석은 종속변수(dependent variable)가 범주형변수(categorical variable)일 때 일반화선형모형을 이용하여 회귀분석을 수행하는 통계분석 모듈입니다. 다항자료회귀분석은 종속변수가 다항 분포(multinomial distribution)를 따른다고 가정하여, 자료가 각 범주에 포함될 확률을 통계적 모형에 사용합니다. 종속변수에는 명목형(nominal)과 순서형(ordinal)이 포함되는데, 그에 따라 다른 방법이 사용됩니다. 종속변수가 명목형일 경우, 기저(baseline) 항목에 포함될 확률 대비 각 항목에 포함될 확률의 비율이 통계적 모형에 들어갑니다. 종속변수가 순서형일 경우, 각 순서 이하의 범주에 포함될 확률이 통계적 모형에 들어갑니다. 특히 순서형 종속변수의 경우 설명변수가 양적 설명변수라면 비례오즈모형을 사용할 수 있으며, 이 모형에서는 설명변수의 변화량에 따른 확률의 변화를 범주마다 일정하게 할 수 있습니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * Generalized linear regression for multinomial data : VGAM 패키지의 vglm 함수
    * Confidence interval : stats 패키지의 confint.default 함수
    * Variance inflation factor : rms 패키지의 vif 함수
    * ANOVA table : car 패키지의 Anova 함수
    * Model fitness measurements : stats 패키지의 deviance, residuals, logLik, AIC, BIC 함수, AICcmodavg 패키지의 AICc 함수
    * Predicted probability : stats 패키지의 fitted 함수
    * Residual : stats 패키지의 residuals 함수
    * Standardized residual : MASS 패키지의 stdres 함수
    * Linear predictors : VGAM 패키지의 predictors 함수
    * Diagonals of hat matrix : stats 패키지의 hatvalues 함수
    * 위에 나열된 결과 외에는 R의 기본 함수를 사용하였음.
  5. User interface: 변수설정 탭
    • 
       	
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 종속변수
    • - 종속변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 필수로 한 개의 질적변수(qualitative variable)가 선택되어야 하고, 이 변수는 세 개 이상의 수준(level)을 가지고 있어야 합니다.
    • 질적변수, 양적변수
    • - 설명변수에 포함될 변수들의 유형을 지정해줍니다. - 종속변수와 중복되어 선택될 수 없습니다. - 질적변수(qualitative variable)와 양적변수(quantitative variable)는 서로 중복되어 선택될 수 없습니다. - 질적변수로 선택된 변수들은 문자로 인식되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다. - 한 개 이상의 변수를 입력할 수 있지만 변수를 선택하지 않아도 분석을 실시할 수 있습니다.
    • 최종모형
    • - 질적변수 혹은 양적변수로 정의된 변수들 중 분석에 포함할 변수를 선택할 수 있는데, 여러 변수를 중복 선택하여 주효과 버튼을 클릭하면 최종모형에 주효과들이 포함되고, 교호작용 버튼을 클릭하면 선택된 변수들의 교호작용이 최종모형에 포함됩니다. - 설명변수로 선택된 변수에서 결측치를 포함하는 관측치(observation)는 분석에서 제외됩니다.
  6. User interface: 분석옵션 탭
    • 
       	
    • 명목형
    • - 종속변수가 명목형 변수(nominal variable)일 경우 선택하십시오. - 기저범주 선택: 종속변수의 수준(level) 중 하나를 기저범주(baseline category)로 지정합니다. - 평행회귀모형 (Parallel regression): 설명변수의 효과가 기저범주와 임의의 한 범주의 비율에 대하여 모두 동일하다고 가정할 수 있으면 이 옵션을 선택하십시오. - 연결함수로 logit 함수만을 지원합니다.
    • 순서형
    • - 종속변수가 순서형 변수(ordinal variable)일 경우 선택하십시오. - 범주의 순서를 알파벳 순으로 자동으로 설정하거나, 사용자가 임의로 설정할 수 있습니다. - 모형의 연결함수를 설정할 수 있습니다. - 평행회귀모형 (Parallel regression): 설명변수의 효과가 기저범주와 임의의 한 범주의 비율에 대하여 모두 동일하다고 가정할 수 있으면 이 옵션을 선택하십시오.
  7. User interface: 출력옵션 탭
    • 
      	
    • 회귀계수
    • - 신뢰구간: 결과출력창에 회귀계수 추정값의 신뢰구간(confidence interval)을 출력하려면 이 옵션을 선택하십시오. - 신뢰수준(Confidence level)으로 0 과 1 사이의 값을 지정할 수 있습니다.
    • 지수 모수 추정량
    • - 결과출력창에 지수(exponential) 회귀계수 추정값을 출력하려면 이 옵션을 선택하십시오. - 연결함수로 logit을 선택했을 때, 지수모수추정량은 오즈비(odds ratio)와 같습니다.
    • 분산분석표
    • - 결과출력창에 분산분석표(ANOVA table)를 포함하려면 이 옵션을 선택하십시오. - 제곱합(sum of squares)의 유형으로 Type I, II, III 중 하나를 선택할 수 있습니다. 각 유형은 다음과 같습니다. - Type I: 설명변수를 순차적으로(sequentially) 하나씩 추가하며 제곱합의 증가량을 계산합니다. 설명변수가 다항식(polynomial)인 경우에 적합합니다. - Type II: 모든 주 효과가 포함된 모형에서 하나의 주 효과가 제거될 때 발생하는 제곱합의 감소량을 계산합니다. 실제 모형이 주효과만으로 구성되어 있을 때 적합합니다. - Type III: 사용자에 의해 지정된 모든 효과가 포함된 모형에서 하나의 효과가 제거될 때 발생하는 제곱합의 감소량을 계산합니다.
    • 분류표 (관측 vs 예측)
    • - 종속변수의 관측값과 예측값의 분류표(classification table)를 출력하려면 이 옵션을 선택하십시오. - 종속변수의 예측값은 예측확률이 가장 높은 범주로 지정됩니다.
    • 예측확률: 엑셀 시트에 종속변수의 각 범주일 예측확률(predicted probability)을 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: MultinomGLM_Fitted_)
    • 잔차: 엑셀 시트에 잔차(residual)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: MultinomGLM_Resid_**)
    • 표준화잔차: 엑셀 시트에 표준화잔차(standardized residual)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: MultinomGLM_stdResid_**)
    • 선형예측값: 엑셀 시트에 선형예측값(linear predictor)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: MultinomGLM_LinearPred_**)
    • 해트 행렬의 대각원소: 엑셀 시트에 해트 행렬의 대각원소(diagonal of hat matrix)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: MultinomGLM_HatValue_**)
  8. User interface: 변수선택 탭
    • 
       	
    • 변수선택
    • - 다항자료회귀분석 수행 중 변수선택과정을 포함하기 위해서는 변수선택 옵션을 선택하십시오. - 변수선택방법으로는 ‘전진선택법(forward selection)’, ‘후진제거법(backward elimination)’, 또는 ‘단계별선택법(stepwise regression)’을 결정할 수 있습니다. - 전진선택법은 최종모형에 선택된 k개의 설명변수들 중에서 종속변수에 영향을 가장 미칠 것 같은 변수부터 하나씩 포함하면서 j(<=k)개의 변수를 선택하는 방법입니다. - 후진제거법은 최종모형에 선택된 k개의 설명변수들 중에서 종속변수에 영향을 가장 작게 미칠 것 같은 변수부터 하나씩 제거하면서 j(<=k)개의 변수를 선택하는 방법입니다. - 단계별선택법은 전진선택법과 후진제거법을 번갈아 수행하여 j(<=k)개의 변수를 선택하는 방법입니다. - 설명변수 창에는 최종모형에서 선택된 변수들이 나열되어 있으며, 이 중 변수선택과정과 상관없이 모형에 항상 포함되어 있어야 하는 변수는 고정변수 창으로 이동시켜야 합니다. 즉, 고정변수 창에 포함된 변수들은 변수선택과정과 상관없이 항상 모형에 포함되어 분석됩니다. - 모든 변수선택의 과정은 AIC를 기반으로 하고 있습니다.
  9. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 전체변수의 수(Number of total variables), 분석에 사용된 변수의 수(Number of used variables)를 나타냅니다.
    • Variable List
    • - 질적변수와 양적변수로 사용된 변수를 나타냅니다. - 질적변수로 포함된 변수는 무조건 문자형변수로 변환되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다.
    • Analysis Description
    • - 종속변수(Dependent variable), 종속변수 유형(Type of dependent variable), 종속변수의 수준(Levels of dependent variable), 설명변수(Explanatory variable), 모형(Model), 연결함수(Link function), 평행회귀모형 여부(Parallel regression), 변수선택 여부(Variable selection)를 나타냅니다. - 변수선택 옵션을 선택한 경우, 변수선택 방법(Method for variable selection)과 고정변수(Fixed variable for variable selection)가 표시됩니다.
    • Regression Coefficient Estimates
    • - 설명변수의 모수 추정치를 나타냅니다. 이 때, 행 이름의 ':' 이후의 문자는 기저범주를 제외한 종속변수의 범주를 의미합니다. - 모형적합과 관련된 여러가지 측도로 이탈도(deviance), 로그우도값(Log-likelihood), 모수추정을 위해 반복한 수(Number of iterations)를 나타냅니다.
    • ANOVA Table
    • - 분산분석표를 출력합니다. - Type I 제곱합인 경우 영모형(Null model)과의 자유도 차이(DF), 영모형과의 이탈도 차이(Deviance), 잔차제곱합의 자유도(Residual DF), 이탈도(Residual Deviance), 유의확률(P-value)를 나타냅니다. - Type II, III 제곱합인 경우 회귀제곱합의 감소량(SS), 영모형과의 자유도 차이(DF), F 통계량(F-value), 유의확률(P-value)을 나타냅니다.
    • Model Fitness Measurements
    • - 이탈도(Deviance), 피어슨 카이제곱합(Pearson's chi-square), -2*로그우도값(-2*log-likelihood), Akaike information criterion(AIC), AICc, BIC 등 모형의 적합도를 나타내는 여러 값들을 표시합니다.
    • Classification Table
    • - 예측된 종속변수(예측확률이 가장 큰 범주)와 관측된 종속변수의 분류표를 출력합니다.
    • Variable Selection
    • - Process of Variable Selection: 변수선택의 과정을 나타냅니다. - 각 단계(step)에서는 현재 모형과 그에 따른 AIC가 표시되고, 변수가 추가(+), 제거(-)되거나 혹은 현재 모델을 유지하였을 때의 AIC와 현재 모형과의 자유도의 차이(DF)를 나타냅니다. - AIC를 기준으로 오름차순으로 표가 정리되며, AIC가 가장 작은 모형을 그 단계의 최적모형으로 선택합니다. - 현재 모형이 최적모형이 될 때 까지 단계를 반복합니다. - Result of Variable Selection: 변수선택 초기 모형(Initial Model)과 최종 모형(Final Model)을 나타냅니다.
  10. Warning 메세지
  11. * 종속변수에 유일무이한 값이 포함되어 있는 경우 범주형변수가 아닌 것으로 판단하여 아래의 경고문을 표시합니다 (Error: The dependent variables seems not to be categorized.)