Rex 분석 : 이항자료회귀분석

  1. 분석모듈 설명
  2. 이항자료 회귀분석은 종속변수가 이항자료일 때 수행하는 통계분석 모듈입니다. 이항자료는 성공 또는 실패와 같이 2개의 범주만 존재하는 질적변수(qualitative variable)를 의미하며, 연결함수(link function)를 이용하여 종속변수(dependent variable) 수준의 확률을 변형하여 설명변수(explanatory variable)들과의 선형적인 관계를 분석합니다. 즉, 연결함수를 적절히 지정하여 이항자료 회귀분석을 실시하게 되는데, 이를 통해 최적의 모수 추정치를 계산할 수 있습니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * Generalized linear regression for binomial data : stats 패키지의 glm 함수
    * Confidence interval : stats 패키지의 confint 함수
    * Variance inflation factor : rms 패키지의 vif 함수
    * ANOVA table : stats 패키지의 anova 함수, car 패키지의 Anova 함수
    * Cross validation : caret 패키지의 trainControl, train 함수
    * Model fitness measurements : stats 패키지의 residuals, logLik, AIC, BIC 함수
    * Pseudo R-squared measures : pscl 패키지의 pR2 함수
    * Goodness of fit test : stats 패키지의 anova 함수, ResourceSelection 패키지의 hoslem.test 함수
    * ROC curve : ROCR 패키지의 prediction, performance 함수
    * Predicted probability : stats 패키지의 fitted 함수
    * Residual : stats 패키지의 residuals 함수
    * Standardized residual : MASS 패키지의 stdres 함수
    * Studentized residual : MASS 패키지의 studres 함수
    * Diagonals of hat matrix : stats 패키지의 hatvalues 함수
    * Cook's distance : stats 패키지의 cooks.distance 함수
    * 위에 나열된 결과 외에는 R의 기본 함수를 사용하였음.
  5. User interface: 변수설정 탭
    • 
       	
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 종속변수
    • - 종속변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 한 개의 질적변수(qualitative variable)가 반드시 선택되어야 하며 이 변수는 두 개의 수준(level)으로 이루어져 있어야 합니다. - 기저범주: 종속변수의 수준(level) 중 하나를 기저범주(baseline category)로 지정합니다.
    • 질적변수, 양적변수
    • - 설명변수에 포함될 변수들의 유형을 지정해줍니다. - 종속변수와 중복되어 선택될 수 없습니다. - 질적변수(Qualitative variable)와 양적변수(Quantitative variable)는 서로 중복되어 선택될 수 없습니다. - 질적변수로 선택된 변수들은 문자로 인식되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다. - 한 개 이상의 변수를 입력할 수 있지만 선택하지 않아도 분석을 실시할 수 있습니다.
    • 최종모형
    • - 오른쪽 상단의 콤보박스를 클릭하여 설명변수(질적변수 또는 양적변수)를 설정할 수 있습니다. - 질적변수 혹은 양적변수로 정의된 변수들 중 분석에 포함할 변수를 선택할 수 있는데, 여러 변수를 중복 선택하여 주효과 버튼을 클릭하면 최종모형에 주효과들이 포함되고, 교호작용 버튼을 클릭하면 선택된 변수들의 교호작용이 최종모형에 포함됩니다. - 설명변수에서 모든 효과들은 중복하여 선택할 수 있습니다. - 설명변수에 선택된 변수들 중에서 하나라도 결측치를 포함하는 관측치(observation)는 분석에서 제외됩니다.
    • 연결함수
    • - 연결함수 옵션으로 logit, probit, cauchit, cloglog를 선택할 수 있습니다. - 기본값은 logit입니다.
    • 상수항 포함하지 않음
    • - 이항자료 회귀분석에 상수항을 포함하지 않으려면 이 옵션을 선택하십시오. - 만약 최종모형에 변수가 선택되지 않았을 때는 이 옵션을 선택할 수 없습니다.
  6. User interface: 출력옵션 탭
    • 
      	
    • 회귀계수
    • - 신뢰구간: 결과출력창에 회귀계수 추정값의 신뢰구간(confidence interval)을 출력하려면 이 옵션을 선택하십시오. - 신뢰수준(Confidence level)으로 0 과 1 사이의 값을 지정할 수 있습니다.
    • 지수 모수 추정량
    • - 결과출력창에 지수(exponential) 회귀계수 추정값을 출력하려면 이 옵션을 선택하십시오. - 연결함수로 logit을 선택했을 때, 지수모수추정량은 오즈비(odds ratio)와 같습니다.
    • 분산팽창지수(VIF): 설명변수들간의 다중공선성(multicollinearity)을 진단하는 방법 중 하나인 분산팽창지수(Variance Inflation Factor, VIF)를 출력하려면 이 옵션을 선택하십시오.
    • 분산분석표
    • - 결과출력창에 분산분석표(ANOVA table)를 포함하려면 이 옵션을 선택하십시오. - 제곱합(sum of squares)의 유형으로 Type I, II, III 중 하나를 선택할 수 있습니다. 각 유형은 다음과 같습니다. - Type I: 설명변수를 순차적으로(sequentially) 하나씩 추가하며 제곱합의 증가량을 계산합니다. 설명변수가 다항식(polynomial)인 경우에 적합합니다. - Type II: 모든 주 효과가 포함된 모형에서 하나의 주 효과가 제거될 때 발생하는 제곱합의 감소량을 계산합니다. 실제 모형이 주효과만으로 구성되어 있을 때 적합합니다. - Type III: 사용자에 의해 지정된 모든 효과가 포함된 모형에서 하나의 효과가 제거될 때 발생하는 제곱합의 감소량을 계산합니다.
    • K-fold Cross validation
    • - 교차검증(Cross validation)을 수행하려면 이 옵션을 선택하십시오. - K: 학습자료와 시험자료의 비율을 지정할 수 있습니다. 예를 들어 K가 3로 지정된 경우, 전체데이터를 무작위로 3개로 나눈 후 두 개는 학습데이터(training data)로 사용하여 모델을 적합시키고, 나머지 하나를 시험데이터(test data)로 사용하여 적합된 모델의 정확도를 계산합니다. 이 과정을 3개로 나누어진 데이터 모두에 적용하게 되어 총 3번 반복하게 되고, 세 개의 모델로부터 얻은 정확도의 평균을 모델의 최종 정확도로 판단합니다. - K는 2 이상의 정수만 가능하며, 관측값의 수보다 더 큰 값이 입력되면 자동으로 leave-one-out 교차검증을 실시합니다.
    • 적합도검정: 모형의 적합도검정(Goodness of fit test)를 실시하려면 이 옵션을 선택하십시오.
    • 분류표 (관측 vs 예측)
    • - 종속변수의 관측값과 예측값의 분류표(classification table)를 출력하려면 이 옵션을 선택하십시오. - 분류분기점: 종속변수의 예측값을 정하기 위한 분류분기점(cut point)를 지정할 수 있습니다. 0과 1사이의 값이 입력되어야 하며, 이 값보다 예측확률이 작은 경우 기저범주로, 그렇지 않으면 나머지 범주로 할당됩니다.
    • ROC curve: 결과출력창에 ROC(Receiver Operating Characteristic) curve를 출력하려면 이 옵션을 선택하십시오.
    • 잔차진단그래프
    • - 결과출력창에 잔차진단그래프를 포함하려면 이 옵션을 선택하십시오. - 잔차, 쿡의 거리(Cook's distance), 지렛점(Leverage) 등을 이용한 그래프로 선형회귀분석이 잘 수행되었는지를 시각적으로 진단/평가할 수 있는 6개의 그래프를 포함하고 있습니다.
    • 예측확률: 엑셀 시트에 종속변수가 기저범주가 아닐 예측확률(predicted probability)을 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: Fitted_LGM)
    • 예측집단: 엑셀 시트에 예측집단(predicted category)을 저장하려면 이 옵션을 선택하십시오. 분류분기점은 0에서 1사이의 값으로 지정할 수 있습니다. (저장될 변수 이름: Fitted_LGM_g)
    • 잔차: 엑셀 시트에 잔차(residual)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: Resid_LGM)
    • 표준화잔차: 엑셀 시트에 표준화잔차(standardized residual)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: stdResid_LGM)
    • 스튜던트화잔차: 엑셀 시트에 스튜던트화잔차(studentized residual)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: studResid_LGM)
    • 선형예측값: 엑셀 시트에 선형예측값(linear predictor)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: LinearPred_LGM)
    • 해트 행렬의 대각원소: 엑셀 시트에 해트 행렬의 대각원소(diagonal of hat matrix)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: HatValue_LGM)
    • 쿡의 거리: 엑셀 시트에 Cook 거리(Cook’s distance)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: CookDist_LGM)
  7. User interface: 변수선택 탭
    • 
       	
    • 변수선택
    • - 이항자료회귀분석 수행 중 변수선택과정을 포함하기 위해서는 변수선택 옵션을 선택하십시오. - 변수선택방법으로는 ‘전진선택법(forward selection)’, ‘후진제거법(backward elimination)’, 또는 ‘단계별선택법(stepwise regression)’을 결정할 수 있습니다. - 전진선택법은 최종모형에 선택된 k개의 설명변수들 중에서 종속변수에 영향을 가장 미칠 것 같은 변수부터 하나씩 포함하면서 j(<=k)개의 변수를 선택하는 방법입니다. - 후진제거법은 최종모형에 선택된 k개의 설명변수들 중에서 종속변수에 영향을 가장 작게 미칠 것 같은 변수부터 하나씩 제거하면서 j(<=k)개의 변수를 선택하는 방법입니다. - 단계별선택법은 전진선택법과 후진제거법을 번갈아 수행하여 j(<=k)개의 변수를 선택하는 방법입니다. - 설명변수 창에는 최종모형에서 선택된 변수들이 나열되어 있으며, 이 중 변수선택과정과 상관없이 모형에 항상 포함되어 있어야 하는 변수는 고정변수 창으로 이동시켜야 합니다. 즉, 고정변수 창에 포함된 변수들은 변수선택과정과 상관없이 항상 모형에 포함되어 분석됩니다. - 모든 변수선택의 과정은 AIC를 기반으로 하고 있습니다.
  8. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 전체변수의 수(Number of total variables), 분석에 사용된 변수의 수(Number of used variables)를 나타냅니다.
    • Variable List
    • - 질적변수와 양적변수로 사용된 변수를 나타냅니다. - 질적변수로 포함된 변수는 무조건 문자형변수로 변환되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다.
    • Analysis Description
    • - 종속변수(Dependent variable), 설명변수(Explanatory variable), 상수항포함 여부(intercept included), 연결함수(Link function), 변수선택 여부(Variable selection)를 나타냅니다. - 변수선택 옵션을 선택한 경우, 변수선택 방법(Method for variable selection)과 고정변수(Fixed variable for variable selection)가 표시됩니다.
    • Coefficient Estimates
    • - 설명변수의 모수 추정치를 나타냅니다. - 모형적합과 관련된 여러가지 측도로 이탈도(deviance), Akaike information criterion(AIC), 모수추정을 위해 반복한 수(Number of Fisher Scoring iterations)를 나타냅니다.
    • ANOVA Table
    • - 분산분석표를 출력합니다. - Type I 제곱합인 경우 영모형(Null model)과의 자유도 차이(DF), 영모형과의 이탈도 차이(Deviance), 잔차제곱합의 자유도(Residual DF), 이탈도(Residual Deviance), 유의확률(P-value)를 나타냅니다. - Type II, III 제곱합인 경우 회귀제곱합의 감소량(SS), 영모형과의 자유도 차이(DF), F 통계량(F-value), 유의확률(P-value)을 나타냅니다.
    • Model Fitness Measurements
    • - 이탈도(Deviance), -2*로그우도값(-2*log-likelihood), Akaike information criterion(AIC), BIC 등 모형의 적합도를 나타내는 여러 값들을 표시합니다. - Pseudo R-squared Measures: Pseudo R-squared로 여러가지 통계량을 제공합니다. 각 열은 로그우도비(log likelihood ratio)에 -2를 곱한 값(G2), McFadden의 pseudo r-squared(McFadden), 최대우도 pseudo r-squared(r2ML), Cragg와 Uhler의 pseudo r-squared(r2CU)를 나타냅니다.
    • Goodness of Fit Test(Likelihood Ratio Test) - Deviance Table (Likelihood Ratio Test)
    • - 상수항만 포함된 영모형(Null Model)과 사용자에 의해 정의된 모형(Proposed Model)에 대한 우도비검정(Likelihood ratio test) 결과를 나타냅니다. - 각 열은 오차제곱합의 자유도(Resid. Df), 잔차 이탈도(Resid. Dev), 두 모형의 자유도의 차이(Df), 두 모형의 잔차이탈도의 차이(Deviance), 유의확률(Pr(>Chi))을 나타냅니다. - 상수항만 포함된 모형과 상수항이 포함되지 않은 모형의 경우 적합도 검정을 지원하지 않습니다.
    • Goodness of Fit Test(Likelihood Ratio Test) - Hosmer-Lemeshow test
    • - Hosmer-Lemeshow 검정은 사건과 비사건(기저범주)의 관측빈도와 기대빈도를 비교하여 사용자에 의해 제시된 모형이 자료를 얼마나 잘 적합시키는지 평가합니다. - 각 열은 카이제곱통계량(X-squared), 자유도(df), 유의확률(p-value)를 나타냅니다.
    • Classification Table - cut point : **
    • - 사용자에 의해 지정된 분류분기점에 기반하여 예측된 종속변수와 관측된 종속변수의 분류표를 출력합니다.
    • K-fold Cross Validation
    • - 사용자에 의해 지정된 K값에 따른 교차검증 결과를 나타냅니다. - 각 열은 정확도(Accuracy), Cohen의 Kappa(Kappa), 정확도의 표준편차(AccuracySD), Kappa의 표준편차(KappaSD)를 나타냅니다.
    • Graphs for Regression Diagnostics
    • - Residual vs Fitted plot: 종속변수와 설명변수 사이의 선형성을 시각적으로 확인 가능합니다. 잔차와 적합값 사이에 일정한 패턴을 보이지 않아야 합니다. - Normal Q-Q plot: 잔차가 정규성을 따르는지 시각적으로 확인 가능합니다. 즉, 45도 기준선에 점들이 분포되어 있으면 정규성을 만족하는 것입니다. - Scale-Location plot: 종속변수의 등분산성을 시각적으로 확인 가능합니다. 점들이 일정한 패턴을 보이지 않아야 합니다. - Cook's distance plot: 이상치(outlier)를 시각적으로 확인할 수 있습니다. 그래프에 표시된 숫자는 이상치로 의심되는 관측값의 지수(index)입니다. - Residuals vs Leverage plot: 지렛점(leverage)은 설명변수가 얼마나 극단에 치우쳐 있는지 보여주는 값이며, 이상치를 시각적으로 확인 할 수 있습니다. 숫자가 표시된 관측치는 이상치를 가지는 후보로 고려해 볼 수 있습니다. - Cook's distance vs Leverage plot: 쿡의 거리와 지렛점의 산점도 그림으로 (0,0)으로 부터 멀리 떨어져 있을수록 이상치를 가지는 후보로 고려해 볼 수 있습니다.
    • Variable Selection
    • - Process of Variable Selection: 변수선택의 과정을 나타냅니다. - 각 단계(step)에서는 현재 모형과 그에 따른 AIC가 표시되고, 변수가 추가(+), 제거(-)되거나 혹은 현재 모델을 유지하였을 때의 AIC와 현재 모형과의 자유도의 차이(DF)를 나타냅니다. - AIC를 기준으로 오름차순으로 표가 정리되며, AIC가 가장 작은 모형을 그 단계의 최적모형으로 선택합니다. - 현재 모형이 최적모형이 될 때 까지 단계를 반복합니다. - Result of Variable Selection: 변수선택 초기 모형(Initial Model)과 최종 모형(Final Model)을 나타냅니다.
  9. Warning 메세지
  10. * 종속변수로 질적변수 중에서도 이항변수가 아닌 변수가 선택된 경우 아래의 메시지와 함께 분석이 종료됩니다 (Error: Dependent variable should be binary. Analysis has been stopped.)
    * 상수항을 포함하지 않는 모형이 아무런 설명변수도 포함하지 않으면 아래의 메시지와 함께 분석이 종료됩니다 (Error: With no intercept, at least 1 explanatory variable should be selected. Analysis has been stopped.)