Rex 분석 : K평균군집분석

  1. 분석모듈 설명
  2. K평균 군집분석(cluster analysis)은 N개의 모든 데이터를 최종 K개의 군집으로 군집화시키는 방법입니다. K평균 군집분석(cluster analysis)은 양적변수(quantitative variable)만 가능하며, 분석이 이루어지는 동안 초기 군집에서 다른 군집으로 이동하는 재배치가 가능합니다. 초기 설정된 군집에 의하여 영향을 많이 받는 방법으로서, 초기치의 선택이 최종 군집에 영향을 주므로, 여러 개의 초기치를 대입 및, 여러 번 분석을 반복해야 할 필요가 있습니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * cluster 패키지의 silhouette 함수
    * fpc 패키지의 stats 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 군집변수
    • - 군집분석(cluster analysis)에 사용될 변수를 지정해줍니다. - 질적변수는 선택될 수 없습니다. - 양적변수 중 최소 하나 이상의 변수가 포함되어야 합니다.
    • 데이터 표준화: 군집분석(cluster analysis) 시, 표준화된 데이터 값을 사용합니다.
  6. User interface: 변수설정 탭
    • 군집의 수: 군집분석(cluster analysis) 결과 원하는 최종 군집의 수를 입력하여 주십시오.
    • 초기값 설정횟수: K평균 군집분석(cluster analysis)의 경우 초기값의 영향을 많이 받습니다. 초기값 설정을 몇번 재설정 할 것인지 입력하여 주십시오. 안정적인 값을 얻기 위해 약 20번 정도의 초기값 재설정을 권유합니다. 초기값 설정 횟수가 늘어날수록 분석 시간은 늘어납니다.
    • 알고리즘
    • - 거리계산 알고리즘을 선택하여 주십시오. 사용 가능한 계산방법들은 다음과 같습니다. - Hartigan-Wong : 각 클러스터내의 제곱합이 최소가 되도록 군집을 할당해 주는 방법입니다. p개의 변수(j=1,2,…n) 가 선택되었고, n개의 샘플 (i=1,2,..n) 이 있다고 할 때 Hartigan-Wong 의 식은 다음과 같습니다. - Lloyd, Forgy : 각 클러스터의 무게중심(centroid) 을 이용한 방법입니다. k개의 임의의 중심점을 할당한 후, 중심점과의 거리를 기준으로 군집을 할당해 줍니다. 그 후 형성된 군집의 무게중심 대응하는 벡터를 중심벡터로 다시 할당해 줍니다. 이 때 더 이상 중심점이 변화하지 않을 때까지 반복 해 줍니다. Lloyd 와 Forgy 알고리즘의 차이는 Forgy 알고리즘은 연속형 분포를 가정하는반면, Forgy 알고리즘은 불연속형 분포를 가정한다는 것입니다. - MacQueen : 대체적으로 Loyd, Forgy와 비슷하나, 각 샘플벡터가들이 새롭게 군집으로 할당될 때마다 무게중심이 업데이트 됩니다.
    • 알고리즘 반복횟수 : 알고리즘 반복횟수 (분석 반복 횟수)를 설정하여 주십시오.
    • 실루엣: 군집분석(cluster analysis)의 정확도를 평가하고자 할 때 선택하여 주십시오.
  7. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 분석에 사용된 변수의 수(Number of variables), 변수의 이름(Variables)을 나타냅니다.
    • Descriptions of Analysis: 선택된 군집의 수;k(Number of clusters), 사용된 알고리즘(Algorithm), 알고리즘 반복 횟수(Maximum number of iterations), 초기치 설정 횟수(Number of random sets), 실루엣(Silhouette) 유무, 최대 가능 군집의 수(Maximum number of clusters for Silhouette)을 나타냅니다.
    • Results – K-means Clustering
    • - 각 클러스터에 할당된 샘플 수(Sizes of 2 cluster)를 나타냅니다. - 총 제곱합(Total sum of squares)를 나타냅니다. - 각 클러스터내에서의 제곱합(Within Cluster SS for each cluster)을 나타냅니다. - 클러스터간의 제곱합(Between Cluster SS) 을 나타냅니다. - 최종 군집결과에 의해 설명되는 비율(Explanation Ratio)를 나타냅니다. 이 값은 클수록 좋습니다.
    • K-means Cluster Plot: K-means 군집분석(cluster analysis)의 결과를 변수별로 보여줍니다.
    • 실루엣 (Silhouette)
    • - K-means 군집분석(cluster analysis)에 의한 실루엣 너비를 보여줍니다. - 실루엣 값이 클수록 군집내 응집성이 높고, 군집간 분리성이 높아 군집이 잘 나누어진 것으로 판단할 수 있습니다.
    • Average Silhouette by cluster numbers: 군집의 수를 x축으로, 그때의 평균 실루엣 값을 y축으로 하여 나타낸 그림으로써, 빨간 수직선이 실루엣평가를 기반으로 봤을 때 가장 적절한 최종 군집의 수입니다.
    • Dunn Index by cluster numbers: Dunn Index를 기반으로 가장 적절한 최종 군집의 수를 나타내 줍니다.