Rex 분석 : 계층적군집분석

  1. 분석모듈 설명
  2. 계층적 군집분석(cluster analysis)은 처음 N개의 모든 샘플에서 시작하여, 점차 군집의 개수를 줄여나가는 계층적 군집방법입니다. 처음에는 모든 관측 값들이 모든 군집으로 할당 된 후, 거리측정 방식에 따라 각 그룹간의 유사성을 측정하여, 최종 두개의 군집만 남을 때가지 수행됩니다. 그러므로 계층적 군집분석(cluster analysis)을 위해서는 관측벡터들간의 거리와, 군집간의 거리 계산에 대한 알고리즘이 필요합니다(출력옵션탭에서 선택). 범주형 변수, 연속형 변수 모두가 포함가능하나 범주형 변수의 경우, 관측벡터간들의 거리측정시 ‘gower’ 알고리즘이 사용됩니다. 비지도 분류분석에서 가장 많이 사용되는 k평균 군집분석(cluster analysis)과 가장 큰 차이점은, 범주형 변수도 선택가능하다는 것과, 최종군집수가 필요하지 않다는 것입니다. 출력옵션탭에 있는 ‘군집의 수’ 는 계층적분석의 결과에는 아무런 영향을 주지 않으며, 최종 보고싶은 군집들을 시각화해 주기 위한 것입니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * cluster 패키지의 daisy, silhouette 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 질적변수, 양적변수
    • - 설명변수에 포함될 변수들의 유형을 지정해줍니다. - 질적변수와 양적변수는 서로 중복되어 선택될 수 없습니다. - 질적변수로 선택된 변수들은 문자로 인식되어 분석에 사용됩니다. - 질적변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다. - 질적변수, 양적변수중 모두 포함하여 최종 하나 이상의 변수가 포함되어야 합니다.
    • 데이터 표준화: 군집분석(cluster analysis) 시, 표준화된 데이터 값을 사용합니다.
  6. User interface: 출력옵션 탭
    • 거리계산방법: 관측벡터들간의 거리측정 알고리즘을 선택하여 주십시오. 사용 가능한 알고리즘들은 다음과 같습니다. 아래 알고리즘 중 하나를 선택하여 주십시오.
    • - Euclidean : 두 점 사이의 거리를 구할 때 가장 많이 쓰는 방식으로, 식은 다음과 같습니다. - Manhattan : 두 점 사이의 절대적 거리를 이용한 거리 계산 방식으로 다음과 같습니다. - Maximum : 두 점 사이의 거리가 좌표 차원에서의 가장 큰 벡터공간에서 정의됩니다. - Gower : 양적변수가 포함되어 있을때도 사용할 수 있는 방법으로, 우선 선택된 변수들을 [0,1]사이의 값으로 표준화 시킨 후, 모든 변수들간의 거리를 가중평균하여 합한 값을 사용합니다.
    • 연결방법: 군집간의 거리를 계산하기 위한 알고리즘을 선택하여 주십시오. 사용 가능한 알고리즘은 다음과 같으며, 아래 알고리즘 중 하나를 선택하여 주십시오.
    • - Complete : 최장연결법으로, 두 군집간의 최장 거리를 군집간 거리로 정의합니다. - Single : 최단연결법으로, 두 군집간의 최단 거리를 군집간 거리로 정의합니다. - Ward.D : Ward가 제안한 방법으로, 군집간의 거리보다는 군집내의 편차제곱합에 근거를 두고 군집을 병합하는 방법입니다. 군집을 병합하는 과정에서 생기는 정보의 손실이 최소가 되도록 정의합니다. - Ward.D2 : Ward.D 방법에 표준화 수치를 사용한 것으로 절대값 대신 거듭제곱값을 사용합니다. - Average : 평균연결법으로 각 군집에 속한 모든 개체들간의 거리의 평균으로 정의합니다. - Mcquitty : 산술평균을 이용한 가중 쌍그룹 방법 (Weighted Pair Group Method with Arithmetic Means; WPGMA) 으로, 가장 가까운 두 군집이 합쳐져 하나의 그룹을 형성한 후, 다른 군집과의 거리는 산술평균으로 구합니다. - Median : 중앙연결법으로, 군집간의 거리를 군집의 모든 샘플의 중앙값으로 정의하는 것입니다. - Centroid : 중심연결법으로, 두 군집간의 거리가 두 군집의 중심간 거리로 정의됩니다. 여기서, s,t 는 각 군집의 중심점을 나타냅니다.
    • 군집의 수: 최종적으로 보고싶은 군집의 수를 입력하는 것으로, 결과출력물 창에 선택된 군집의 수만큼 묶일 수 있도록 시각화 해 줍니다.
    • 실루엣: 데이터들이 얼마나 잘 군집화되었는지 평가하고 적절한 군집 수에 대한 정보를 얻으려면 실루엣을 선택하십시오.
  7. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 분석에 사용된 변수의 수(Number of variables)를 나타냅니다.
    • Variable List: 질적변수(Qualitative variable)와 양적변수(Quantitative variable)로 선택된 변수들 중 분석에 사용된 변수를 나타냅니다.
    • Description of Analysis
    • - 최종 군집의 수(Number of cluster), 관측벡터간의 거리 계산 방법 (Method of distance), 군집간의 거리 계산 방법(Method of linkage)를 나타냅니다. - 실루엣이 선택되었을 때는 실루엣 유무(Silhouette), 최대 실루엣 개수를 (Maximum number of cluster for Silhouette) 나타냅니다.
    • Hierarchical cluster plot: 계층적 군집분석(cluster analysis)의 결과를 그림으로 나타냅니다.
    • Scatter Plot by Clustering Result: 최종 군집 정보를 이용해, 각 변수들의 scatter plot을 군집별로 보여줍니다.
    • Silhouette
    • - 최종선택된 군집의 수에 의한 실루엣 값을 시각화 하여 보여줍니다. - 실루엣 값이 클수록 군집내 응집성이 높고, 군집간 분리성이 높아 군집이 잘 나누어진 것으로 판단 할 수 있습니다.
    • Average Silhouette by cluster numbers: 군집의 수를 x축으로, 그때의 평균 실루엣 값을 y축으로 하여 나타낸 그림으로써, 빨간 수직선이 실루엣평가를 기반으로 봤을 때 가장 적절한 최종 군집의 수입니다.
    • Dunn Index by cluster numbers: Dunn Index를 기반으로 가장 적절한 최종 군집의 수를 나타냅니다.