Rex 분석 : PAM군집분석

  1. 분석모듈 설명
  2. PAM 군집분석은 중앙점(medoid)을 이용하여 N개의 모든 데이터를 최종 K개의 군집으로 군집화시키는 방법입니다. PAM 군집분석은 k-means 군집분석과 달리 양적변수 및 질적변수 모두 가능하며, 이상치에 더 강건합니다. 임의로 k개의 관측치를 중앙점으로 할당한 후, 모든 관측치에서 중앙점까지의 거리의 총합이 가장 최소가 될 때까지 중앙점을 새로이 할당해 주는 방식입니다. PAM알고리즘은 큰 데이터보다 작은 데이터에서 더 유용합니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * cluster 패키지의 pam, silhouette, clusplot 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 질적변수
    • - 군집분석에 사용될 변수를 지정합니다. - 만약 군집분석에 사용할 양적변수가 없다면 최소 하나 이상의 질적변수를 선택해야 합니다.
    • 양적변수
    • - 군집분석에 사용될 변수를 지정합니다. - 만약 군집분석에 사용할 질적변수 없다면 최소 하나 이상의 양적변수를 선택해야 합니다.
    • 데이터 표준화: 군집분석 시, 표준화된 데이터 값을 사용합니다.
  6. User interface: 변수설정 탭
    • 입력변수 변환
    • - 입력변수를 거리로 변환할 것인지 선택하여 주십시오. - 만약 질적변수가 포함되어 있다면, 반드시 거리로 변환하여야 합니다.
    • 거리계산방법: 거리 계산 알고리즘을 선택하여 주십시오. 사용가능한 알고리즘들은 다음과 같습니다.
    • - Euclidean : 두 점 사이의 거리를 구할 때 가장 많이 쓰는 방식으로, 식은 다음과 같습니다. - Manhattan : 두 점 사의 절대적 거리를 이용한 거리 계산 방식으로 다음과 같습니다. - Maximum : 두 점 사이의 거리가 좌표 차원에서의 가장 큰 벡터공간에서 정의됩니다. - Gower : 양적변수가 포함되어 있을 때도 사용할 수 있는 방법으로, 우선 선택된 변수들을 [0,1] 사이의 값으로 표준화 시킨 후, 모든 변수들간의 거리를 가중평균하여 합한 값을 사용합니다.
    • 군집의 수: 최종적으로 보고싶은 군집의 수를 입력하는 것으로, 결과 출력물 창에 선택된 군집의 수만큼 묶일 수 있도록 시각화 합니다.
    • 실루엣: 데이터들이 얼마나 잘 군집화 되었는지 평가하고 적절한 군집 수에 대한 정보를 얻으려면 실루엣을 선택하십시오.
  7. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 분석에 사용된 변수의 수(Number of variables)를 나타냅니다.
    • Variable List: 군집분석에 사용된 양적변수(Quantitative Variable), 질적 변수(Qualitative Variable)의 변수명을 나타냅니다.
    • Descriptions of Analysis: 선택된 군집의 수(Number of clusters), 입력 데이터 종류(Data type), 거리 계산 방법(Distance measure; 입력데이터가 거리였을 경우), 실루엣 기법 사용 유무(Silhouette) 및 실루엣 기법을 위한 최대가능 군집의 수(Maximum number of clusters for Silhouette)를 나타냅니다.
    • Results – Medoids
    • - 중앙값으로 할당된 관측치를 나타냅니다. - 각 관측치는 행을 기준으로 나타냅니다.
    • PAM Clustering Plot 1: 군집분석의 결과를 변수별로 나타냅니다.
    • PAM Clustering Plot 2: 군집분석의 결과를 2차원적으로 나타냅니다.
    • Silhouette
    • - 최종선택된 군집의 수에 의한 실루엣 값을 시각화 하여 나타냅니다. - 실루엣 값이 클수록 군집내 응집성이 높고, 군집간 분리성이 높아 군집이 잘 나누어진 것으로 판단 할 수 있습니다.
    • Silhouette Width by Number of Clusters: 군집의 수를 x축으로, 그때의 평균 실루엣 값을 y축으로 하여 나타낸 그림으로써, y축값이 가장 높은 곳이 실루엣평가를 기반으로 봤을 때 가장 적절한 최종 군집의 수입니다.