Rex 분석 : K최근접이웃기법

  1. 분석모듈 설명
  2. k-최근접 이웃기법 (k-nearest neighbor method)은 데이터가 주어졌을 때 기존 데이터 가운데 가장 가까운 k개 이웃의 정보를 이용하여 유사성(가장 가까운 이웃)을 기준으로 데이터를 분류하는 방법입니다. 서로 가깝게 있는 데이터를 “이웃” 이라고 합니다. 새로운 케이스가 들어 오면, 각 기존 데이터와의 거리가 계산되고 가장 많은 수의 가장 가까운 이웃이 포함된 범주에 새 케이스가 할당됩니다. 검사할 최근접 이웃(nearest neighbor)의 수 K를 지정할 수 있습니다. 또한 연속적인 대상 값을 계산하는 경우 가장 가까운 이웃의 평균 또는 중앙값 대상 값이 사용되어 새 케이스의 예측값을 가져옵니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * e1071 패키지의 knn 함수
    * caret 패키지의 train, trainControl, createDataPartition, confusionMatrix 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 종속변수
    • - 종속변수에 해당하는 변수를 전체변수로부터 선택합니다. - 필수로 한 개의 변수가 선택되어야 하며 질적 및 양적변수 사용 가능합니다. - 종속변수에 결측치가 존재하는 관측치는 분석에서 제외됩니다.
    • 설명변수
    • - 설명변수에 해당 하는 변수를 전체변수로부터 선택합니다. 최소한 한 개 이상 지정해야 합니다. - 종속변수와 중복하여 선택될 수 없습니다. - 설명변수는 질적 변수 및 양적변수 두 종류로 나누어져 있습니다.
  6. User interface: 분석옵션 탭
    • 
       	
    • 분석방법
    • - 분류분석(classification) 선택시 분류분석을 진행 합니다. 종속변수는 질적 변수 여야 합니다. - 회귀분석(regression) 선택시 회귀분석을 진행 합니다. 종속변수는 양적변수 여야 합니다. - K 값 (k 이웃수)를 입력합니다. Default로 5로 지정 되여 있습니다.
    • 재표본추출방법
    • - Bootstrap 옵션을 선택하면 재표본추출을 부트스트랩 방법을 이용합니다. - 10-fold CV(cross validation) 옵션을 선택하면 재표본추출을 10-fold 교차검증 방법을 이용합니다. - LOOCV 옵션을 선택하면 하나 남기기(leave-one-out) 교차검증 방법을 이용합니다. - Repeated CV 옵션을 선택하면 재표본추출을 반복 교차검증 방법을 이용합니다. 반복수 입력칸에 반복수를 입력할 수 있습니다.
    • 전체 데이터 중 훈련데이터의 비율(%): 전체 데이터를 훈련데이터(training data) 와 검증데이터(test data)로 구분시 훈련데이터 비율을 입력합니다. 기본으로 70% 로 지정 됩니다.
  7. User interface: 예측 탭
    • 
       	
    • 새로운 설명변수로 종속변수 예측
    • - 동일한 설명변수의 새로운 데이터로 종속변수를 예측시 이 옵션을 선택하십시오. - 새로 선택된 설명변수의 이름은 다를 수 있지만, 동일한 유형의 데이터 여야 합니다.
  8. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 모형 적합에 사용된 관측치 수(Number of observations for model fitting), 분석에 사용된 종속 변수의 수(Number of dependent variables)를 나타냅니다.
    • Variable List: 종속변수(Dependent variables)와 모형적합에 사용된 설명변수(Attributes for model fitting)들을 나타냅니다.
    • Analysis Description: 적합 모형(Fitted model), 훈련데이터 생성 비율(% of data that goes to training), 븐삭방법(Analysis method for KNN), 재표본추출 방법(Resampling method for KNN)들을 나타냅니다.
    • Model Fit with Training Datasets
    • - 재표본추출 결과를 이용한 튜닝 파라미터의 탐색(Resampling Results Across Tunning Paramters) 결과는 선택된 재표본추출 방법을 이용하여 각 튜닝 파라미터k를 사용시 정확도를 나타냅니다. - k 값(이웃수)과 대응하는 정확도 그래프(Plot of Accuracy vs K-value)는 해당 k값의 정확도를 그래프로 나타냅니다.
    • Predicted Result with Test Datasets: 검증데이터를 사용한 예측 결과를 나타냅니다. 분류 분석 진행 시 혼동행렬(Confusion Matrix), 예측 정확도 보여주는 전반적인 통계치(Overall Statistics) 및 (Statistics by Class)를 나타냅니다.
  9. Warning 메세지
  10. * 아무런 집단변수도 포함하지 않으면 아래의 메시지와 함께 분석이 종료됩니다 (Error : At least 1 group variable should be selected. Analysis has been stopped.)
    * 질적 변수 선택창에 양적변수를 선택시 아래와 같은 경고문이 나타납니다 (Warning : The type of variable OOO is not numeric but selected as the quantitative variable. It was excluded from the analysis.")
    * 양적변수 선택창에 질적 변수를 선택시 아래와 같은 경고문이 나타납니다 (Warning : The type of variable OOO is numeric but selected as the qualitative variable. It was coerced into character.)
    * 종속변수 각 클라스가 한 개의 값만 존재 할 때 아래와 같은 경고문이 나타납니다 (WARNING : Some classes of dependent have a single record. Please check the dependent variable again.)
    * 예측분석으로 선택된 새로운 변수들의 값은 모형 적합시 사용한 변수들의 값과 다른 종류일 때 경고문이 나타납니다 (Error : The variables in prediction should be similar with variables in the model fitting. Please check the variables again.")