Rex 분석 : 일변량분산분석

  1. 분석모듈 설명
  2. 일변량 분산분석(ANOVA)는 하나 이상의 요인(factor)의 수준에 따라 한 종속변수의 값이 유의한 차이를 보이는지 관찰할 수 있는 통계분석 모듈입니다. 일변량 분산분석에서는 각 요인 또는 그 조합(combination)의 수준에 따라 종속변수의 값이 얼마나 차이가 있는지 계산하고, 이를 잔차와 비교하여 이 차이가 유의한지 검정함으로써 어느 요인에 따라 종속변수의 값이 큰 차이를 보이는지 확인합니다. 일변량 분산분석의 결과는 일반적으로 분산분석표(ANOVA table)의 형태로 표시됩니다. 또한 종속변수의 차이가 나타나는 요인이 있을 경우, 그 중 원하는 요인을 지정하여 사후분석(post-hoc analysis)을 통해 해당 요인의 어느 수준 쌍에서 종속변수가 유의한 차이를 보이는지 관찰합니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * Main results : stats 패키지의 anova 함수, car 패키지의 Anova 함수
    * Shapiro-Wilk Test : stats 패키지의 shapiro.test 함수
    * Levene's Test : car 패키지의 leveneTest 함수
    * Post-hoc Analysis : Tukey's HSD : stats 패키지의 TukeyHSD 함수
    * Post-hoc Analysis : Scheffe test : agricolae 패키지의 scheffe.test 함수
    * Post-hoc Analysis : Fisher's LSD : agricolae 패키지의 LSD.test 함수
    * Residual : stats 패키지의 residuals 함수
    * Standard residual : stats 패키지의 rstandard 함수
    * Studentized residual : stats 패키지의 rstudent 함수
    * Cook's distance : stats 패키지의 cooks.distance 함수
    * 위에 나열된 결과 외에는 R의 기본 함수를 사용하였음.
  5. User interface: 변수설정 탭
    • 
       	
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 종속변수
    • - 종속변수에 해당하는 변수를 전체변수로부터 선택합니다. - 필수로 한 개의 변수가 선택되어야 하며 양적 변수만 가능합니다.
    • 요인
    • - 요인에 해당하는 변수를 선택합니다. 최소한 한 개 이상 지정해야 합니다. - 종속변수와 중복하여 선택될 수 없습니다. - 선택된 변수들은 질적 변수로 인식되어 분석에 사용됩니다. - 양적 변수도 선택할 수 있지만, 분석이 부정확하거나 불안정할 수 있습니다.
    • 최종모형
    • - 설명변수로 정의된 변수들 중 분석에 포함할 변수를 선택합니다. 여러 변수를 중복 선택하여 주효과 버튼을 클릭하면 최종모형에 주효과들이 포함되고, 교호작용 버튼을 클릭하면 선택된 변수들의 교호작용이 최종모형에 포함됩니다. - 설명변수로 선택된 변수에서 결측치를 포함하는 관측치(observation)은 분석에서 제외됩니다.
  6. User interface: 분석옵션 탭
    • 
       	
    • 통계량 유형
    • - 분산분석표에서 각 변수에 해당하는 F 통계량의 계산 방법을 선택합니다. - Type I부터 III까지 선택할 수 있으며, 기본값은 type II입니다.
    • 사후분석 수행
    • - 설명변수로 사용한 변수들 중 한 변수를 선택해서 사후분석을 수행합니다. - 사후분석변수와 분석 방법, 유의확률 보정 방법을 선택합니다. - 사후분석의 유의성을 판단하기 위한 신뢰 수준을 0에서 1의 값으로 입력합니다.
  7. User interface: 출력옵션 탭
    • 
      	
    • 잔차진단그래프: 잔차(residual), 쿡의 거리(Cook's distance), 지렛값(leverage value)를 이용한 진단그래프(diagnostic graphs)를 그리려면 이 옵션을 선택하십시오.
    • 박스그림: 요인의 수준별로 종속변수의 박스그림(box plot)을 그리려면 이 옵션을 선택하십시오
    • 적합값: 각 자료의 적합값(fitted value)을 엑셀 시트에 저장하려면 이 옵션을 선택하십시오 (저장할 변수 이름: ANOVA_Fitted)
    • 잔차: 엑셀 시트에 잔차를 저장하려면 이 옵션을 선택하십시오. (변수이름: ANOVA_ResidOriginal)
    • 표준화잔차: 엑셀 시트에 표준화잔차(standardized residual)를 저장하려면 이 옵션을 선택하십시오. (변수이름: ANOVA_ResidStandardized)
    • 스튜던트화잔차: 엑셀 시트에 스튜던트화잔차(studentized residual)를 저장하려면 이 옵션을 선택하십시오. (변수이름: ANOVA_ResidStudentized)
    • 쿡의 거리: 엑셀 시트에 쿡의 거리 (Cook’s distance)를 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: ANOVA_CookDist)
  8. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 전체 변수의 수(Number of variables), 분석에 사용된 변수의 수(Number of used variables)를 나타냅니다.
    • Analysis Description: 분석에 사용된 종속변수와 통계모형을 표시합니다.
    • Assessing Test Assumptions
    • – Univariate Normality : 종속변수의 정규성 여부를 위하여 Shapiro-Wilk 검정과 정규 QQ 그림을 요인의 수준별로 제공합니다. – Levene's Test for Homogeneity of Variance between Groups in Factors: 요요인들의 수준에 따른 등분산 여부를 검정하기 위하여 Levene의 검정을 제공합니다. F 통계량(F value), 자유도(DF), 유의확률(P-value)을 표시합니다.
    • Model Fitness Measurements: Deviance, 로그우도값(log-likelihood), Akaike information criterion(AIC), AICc, BIC 등 모형의 적합도를 나타내는 여러 값들을 표시합니다.
    • ANOVA Table: 분산분석표를 출력합니다.
    • Post-hoc Analysis
    • - 사후분석을 수행할 경우, 지정한 변수의 각 수준 쌍에 대한 사후 검정 결과를 표시합니다. - Tukey의 honest significant difference (HSD) 방법을 선택한 경우 그룹 간 종속변수의 차이와 신뢰구간, 유의확률을 표시합니다. - Fisher의 least significant difference (LSD) 방법을 선택했을 경우, 그룹 간 차이와 유의확률을 표시하며, 동시에 각 그룹 쌍이 유의한 차이를 보이는지 yes 또는 no로 표시합니다. - Scheffe의 방법을 선택했을 경우 그룹 간 차이 및 차이의 유의성 여부만 표시합니다. - Fisher의 least significant difference (LSD) 방법을 제외하고, 유의확률 보정 방법을 선택했을 경우 이 방법은 무시되며 아래와 같은 경고문이 나타납니다 (Warning: The p-value adjusting method will be ignored.)
    • Graphs for Regression Diagnostics
    • - 잔차, 쿡의거리, 지렛점 등을 이용한 진단그래프가 출력됩니다. - Residual vs Fitted plot: 종속변수와 설명변수 사이의 선형성을 시각적으로 확인 가능합니다. 잔차와 적합값 사이에 일정한 패턴을 보이지 않아야 합니다. - Normal Q-Q plot: 잔차가 정규성을 따르는지 시각적으로 확인 가능합니다. 즉, 45도 기준선에 점들이 분포되어 있으면 정규성을 만족하는 것입니다. - Scale-Location plot: 종속변수의 등분산성을 시각적으로 확인 가능합니다. 점들이 일정한 패턴을 보이지 않아야 합니다. - Cook's distance plot: 이상치(outlier)를 시각적으로 확인할 수 있습니다. 그래프에 표시된 숫자는 이상치로 의심되는 관측값의 지수(index)입니다. - Residuals vs Leverage plot: 지렛점(leverage)은 설명변수가 얼마나 극단에 치우쳐 있는지 보여주는 값이며, 이상치를 시각적으로 확인 할 수 있습니다. 숫자가 표시된 관측치는 이상치를 가지는 후보로 고려해 볼 수 있습니다. - Cook's distance vs Leverage plot: 쿡의 거리와 지렛점의 산점도 그림으로 (0,0)으로 부터 멀리 떨어져 있을수록 이상치를 가지는 후보로 고려해 볼 수 있습니다.
    • Box Plot
    • - 각 요인의 수준별로 종속변수의 박스그림이 출력됩니다.
  9. Warning 메세지
    • 설명변수에 양적 변수를 선택할 경우 아래의 경고문이 나타납니다 (Warning : The variable *** seems not to be categorical: the variable is coerced to the factor, and the fit may be unstable because of too many parameters.)
    • 종속변수로 숫자형이 아닌 변수가 선택된 경우 아래의 메시지와 함께 분석이 종료됩니다 (Error : Dependent variable should be numeric. Analysis has been stopped.)
    • 설명변수가 하나도 선택되지 않았을 경우 아래의 메시지와 함께 분석이 종료됩니다 (Error : At least 1 independent variable should be selected. Analysis has been stopped.)
    • 사후분석을 수행할 때 사후분석에 사용할 변수가 모형에 없을 경우 아래의 메시지와 함께 분석이 종료됩니다 (Error : The variable requested for post-hoc analysis is not in the main analysis variable.)
    • 변수 사이에 선형 관계가 있는 경우 아래의 메시지와 함께 분석이 종료됩니다 (Error : Linear dependency between columns of the design matrix (including the intercept) detected. Please check the values of indepedent/dependent variables.)