Rex 분석 : 서포트벡터머신

  1. 분석모듈 설명
  2. 서포트벡터머신(support vector machine, SVM)은 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 이를 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비 확률적 이진 선형 분류 모델(non-probabilistic binary linear classifier)을 만들어 데이터가 사상(mapping)된 공간에서 경계로 표현 되는데 이중 가장 큰 폭을 가진 경계를 찾는 방법입니다. SVM은 지도 학습(supervised learning) 모델이며, 주로 분류 와 회귀 분석을 위해서 사용합니다. 선형 분류와 비선형 분류 모두 가능합니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * e1071 패키지의 svm 함수
    * caret 패키지의 createDataPartition, confusionMatrix 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 종속변수
    • - 종속변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 필수로 한 개의 변수가 선택되어야 하며 질적 변수(분류분석 진행시) 혹은 양적변수(회귀분석 진행시) 사용 가능합니다. - 종속변수에 결측치가 존재하는 관측치는 분석에서 제외됩니다.
    • 설명변수
    • - 설명변수에 해당 하는 변수를 전체변수로부터 선택할 수 있습니다. 최소한 한 개 이상 지정해야 합니다. - 종속변수와 중복하여 선택될 수 없습니다. - 설명변수는 질적 변수 및 양적변수 두 종류로 나누어져 있습니다.
    • 설명변수 표준화: 이 옵션을 선택하면 설명변수를 표준화 하여 분석에서 사용됩니다.
  6. User interface: 분석옵션 탭
    • 
       	
    • 분석방법: 분석방법으로 분류분석(C-classification) 하고 회귀분석(EPS-regression) 두가지 중 선택 가능합니다.
    • 커널함수
    • - 커널 함수로는 가우스 커널(radial), 선형 커널(linear), 다항 커널(polynomial), 시그모이드 커널(sigmoid)등 선택 가능합니다. - 차수(Degree) 파라미터는 다항커널 선택시 지정 가능합니다. 0보다 큰수를 지정 하셔야 합니다. - 감마(Gamma) 파라미터는 선형커널 이외의 커널사용시 지정 가능합니다. 0보다 큰수를 지정하셔야 합니다. 감마 값을 여려개 입력시 튜닝 분석이 진행됩니다. - 비용(Cost) 파라미터는 흔히 C로 지칭하여 과적합을 막는 정도를 지정합니다. 0보다 큰수를 지정하셔야 합니다. 비용 값을 여러개 입력시 튜닝 분석이 진행됩니다.
    • 전체 데이터 중 훈련데이터의 비율(%): 전체 데이터를 훈련데이터 (training data) 와 검증데이터 (test data) 로 구분시 훈련데이터 비율을 입력합니다. 기본으로 70% 로 지정 됩니다.
  7. User interface: 예측 탭
    • 
       	
    • 새로운 설명변수로 종속변수 예측
    • - 동일한 설명변수의 새로운 데이터로 종속변수를 예측시 이 옵션을 선택하십시오. - 새로 선택된 설명변수의 이름은 다를 수 있지만, 동일한 유형의 데이터 여야 합니다.
  8. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 모형 적합에 사용된 관측치 수(Number of observations for model fitting), 분석에 사용된 종속 변수의 수(Number of dependent variables)를 나타냅니다.
    • Variable List: 종속변수(dependent variables)와 모형적합에 사용된 설명변수(Attributes for model fitting)들을 나타냅니다.
    • Analysis Description: 적합 모형(Fitted model), 훈련데이터 생성 비율(% of data that goes to training), 분석방법(Method), 사전확률(Prior probabilities).
    • Parameter Tuning of Function using Grid Search: 모형 파라미터 값이 지정 되지 않을 시 10-fold cross validation 방법으로 찾아주는 과정을 모형 튜닝 한다고 합니다. 모형튜닝 결과 정보(Information of Tuning Result) 출력 값에서 해당 결과를 확인 할수 있습니다.
    • Model Fit with Training Datasets: 모형 적합을 사용자 지정한 파라미터에 따라 진행된 결과를 결과 정보(Information of Result) 에서 확인 할 수 있습니다.
    • Predicted Result with Test Datasets: 검증데이터를 사용한 예측 결과를 나타냅니다. 분류 분석 진행 시 혼동행렬(Confusion Matrix), 예측 정확도 보여주는 전반적인 정확도 통계치(Overall Statistics) 및 (Statistics by Class)를 나타냅니다.
  9. Warning 메세지
  10. * 아무런 집단변수도 포함하지 않으면 다음의 메시지와 함께 분석이 종료됩니다 (Error : At least 1 group variable should be selected. Analysis has been stopped.)
    * 질적 변수 선택창에 양적변수를 선택시 다음과 같은 경고문이 나타납니다 (Warning : The type of variable OOO is not numeric but selected as the quantitative variable. It was excluded from the analysis.")
    * 양적변수 선택창에 질적 변수를 선택시 다음과 같은 경고문이 나타납니다 (Warning : The type of variable OOO is numeric but selected as the qualitative variable. It was coerced into character.)
    * 회귀분석 진행시 종속변수는 수치형으로 지정되여야 합니다 (Error : Inappropriate type of dependent variable. (EPS-regression is supported only for numeric variable.) Analysis has been stopped.)
    * 차수 파라미터는 커널 함수가 다항커널인 경우에만 사용 가능합니다. 차수 값은 0보다 큰 값을 지정해야 합니다. 아닐 경우 다음과 같은 에러 메시지를 출력합니다 (Error : The degree is available only kernel is polynomial and should be greater than 0. The default value of degree is 3. Analysis has been stopped.)
    * 비용 파라미터(cost) 값은 0보다 큰 수를 지정해주어야 합니다. 0보다 작은 값을 지정시 다음과 같은 에러 메시지와 함께 분석이 종료됩니다 (Error : The cost should be numbers and greater than 0. Analysis has been stopped.)
    * 감마 파라미터(gamma) 값은 0보다 큰 수를 지정해주어야 합니다. 0보다 작은 값을 지정시 다음과 같은 에러 메시지와 함께 분석이 종료됩니다 ("Error : The gamma should be numbers and greater than 0. Analysis has been stopped."
    * 감마 파라미터(gamma) 값은 커널 함수가 선형 이외의 함수를 사용시 지정 가능합니다. 아닐 경우 다음과 같은 에러 메시지를 출력합니다 (“Error : The gamma value is not available when kernel is linear. Analysis has been stopped.")
    * 파라미터 선택 오류시 분석 진행 안되어 경고문이 나타납니다 ("WARNING : Reaching max number of iterations. Please reset parameter options.")
    * 예측분석으로 선택된 새로운 변수들의 값은 모형 적합시 사용한 변수들의 값과 다른 종류일 때 경고문이 나타납니다 (Error : The variables in prediction should be similar with variables in the model fitting. Please check the variables again.")