Rex 분석 : 판별분석

  1. 분석모듈 설명
  2. 판별분석(Discriminant Analysis)은 두개 이상의 모집단에서 추출된 표본들의 정보를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지를 결정해주는 기준을 찾는 분석 방법입니다. 판변분석에는 선형판별분석(Linear Discriminant Analysis) 그리고 이차판별분석(Quadratic Discriminant Analysis)가 있습니다. 판별분석(Discriminant Analysis)에서 종속변수는 두개 혹은 제한적인 계급을 가지는 질적 데이터여야 합니다. 설명변수는 성향에 관계없이 사용할 수 있습니다. 선형판별분석(Linear Discriminant Analysis) 에서는 설명변수들의 벡터는 각각 다변량 정규분포를 따르고, 변수들 간의 분산-공분산행렬은 동일 해야 합니다. 이차판별분석(Quadratic Discriminant Analysis)에는 변수들 간의 분산-공분산 행렬은 동일하지 않아도 됩니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * MASS 패키지의 lda, qda 함수
    * caret 패키지의 createDataPartition, confusionMatrix 함수
    * klaR 패키지의 partimat 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 종속변수
    • - 종속변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 필수로 한 개의 변수가 선택되어야 하며 질적 변수 사용 가능합니다. - 종속변수에 결측치가 존재하는 관측치는 분석에서 제외됩니다.
    • 설명변수
    • - 설명변수에 해당 하는 변수를 전체변수로부터 선택할 수 있습니다. 최소한 한 개 이상 지정해야 합니다. - 종속변수와 중복하여 선택될 수 없습니다. - 설명변수는 질적 변수 및 양적변수 두 종류로 나누어져 있습니다. - 이차판별분석(qda) 진행시 설명변수는 양적변수만 선택 가능합니다.
  6. User interface: 분석옵션 탭
    • 분석방법: 분석방법으로는 선형판별분석(LDA)하고 이차판별분석(QDA) 두가지 선택 가능합니다.
    • 전체 데이터 중 훈련데이터의 비율(%): 전체 데이터를 훈련데이터 (training data) 와 검증데이터 (test data) 로 구분시 훈련데이터 비율을 입력합니다. 기본으로 70% 로 지정 됩니다.
    • 사전확률: 분석실행시 사전확률값 지정 방법을 선택합니다. 훈련데이터 내의 집단의 상대빈도, 모든 집단에 대하여 동일한 확률, 사용자 정의 세가지 옵션 중에서 선택 하여 주십시오.
  7. User interface: 예측 탭
    • 새로운 설명변수로 종속변수 예측
    • - 동일한 설명변수의 새로운 데이터로 종속변수를 예측시 이 옵션을 선택하십시오. - 새로 선택된 설명변수의 이름은 다를 수 있지만, 동일한 유형의 데이터 여야 합니다.
  8. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 모형 적합에 사용된 관측치 수(Number of observations for model fitting), 분석에 사용된 종속 변수의 수(Number of dependent variables)를 나타냅니다.
    • Variable List: 종속변수(Dependent variables)와 모형적합에 사용된 설명변수(Attributes for model fitting)들을 나타냅니다.
    • Analysis Description: 적합 모형(Fitted model), 훈련데이터 생성 비율(% of data that goes to training), 분석방법(Method), 사전확률(Prior probabilities).
    • Model Fit with Training Datasets: 그룹별 사전확률 (Prior Probabilities of Groups), 선형판별 분석시 추정계수 값(Coefficients of Linear Discriminants), 판별함수별 그룹간 차이점 설명 비율(Proportion of the Trace), 그룹별 판별함수값의 막대도표(Stacked Histogram of the LDA Values), 혼동행렬(Confusion Matrix)을 나타냅니다.
    • Predicted Result with Test Datasets: 검증데이터를 사용한 예측 결과를 나타냅니다. 분류 분석 진행 시 혼동행렬(Confusion Matrix), 예측 정확도 보여주는 전반적인 정확도 통계치(Overall Statistics) 및 (Statistics by Class)를 나타냅니다.
  9. Warning 메세지
  10. * 아무런 집단변수도 포함하지 않으면 다음의 메시지와 함께 분석이 종료됩니다 (Error : At least 1 group variable should be selected. Analysis has been stopped.)
    * 질적변수 선택창에 양적변수를 선택시 다음과 같은 경고문이 나타납니다 (Warning : The type of variable OOO is not numeric but selected as the quantitative variable. It was excluded from the analysis.")
    * 양적변수 선택창에 질적 변수를 선택시 다음과 같은 경고문이 나타납니다 (Warning : The type of variable OOO is numeric but selected as the qualitative variable. It was coerced into character.)
    * 잘못된 설명변수 선택으로 공선성문제 발생시 다음과 같은 경고문이 나타납니다 ("WARNING : There is a rank deficiency, some variables are collinear. Please check the  explanatory variables.")
    * 이차판별분석 진행시 설명변수가 질적(qualitative) 일시 다음과 같은 경고문이 나타납니다 ("WARNING : The factor explanatory variable is not available in 'qda'. Please select correct variables.")
    * 예측분석으로 선택된 새로운 변수들의 값은 모형 적합시 사용한 변수들의 값과 다른 종류일 때 경고문이 나타납니다 (Error : The variables in prediction should be similar with variables in the model fitting. Please check the variables again.")