Rex 분석 : DBSCAN군집분석

  1. 분석모듈 설명
  2. DBSCAN 군집분석(cluster analysis)은 밀도기반 군집분석으로, 기준이 되는 반경 내에 최소한의 이웃 데이터가 있으면, 하나의 군집(cluster)으로 처리하는 방식입니다. 즉 데이터의 밀도가 높아지는 방향으로 데이터를 군집화 하는 방식으로, DBSCAN 군집분석(cluster analysis)을 위해서는 사용자가 군집간 거리와, 군집당 최소 샘플 수를 지정해줘야 합니다. 지정된 군집간 거리를 이용해 주변공간을 정의한 후, 그 주변공간에 최소의 샘플수가 존재하면 하나의 군집으로 인식합니다. 생성된 군집내의 중심점은 핵심벡터 (core point)로 분류되며, 정의된 군집간 거리 내에 최소한의 샘플 수 미만의 벡터들이 있어, 어떠한 군집으로도 분류되지 못하는 벡터들의 경우 노이즈 벡터로 분류됩니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * dbscan 패키지의 dbscan, kNNdistplot 함수
    * cluster 패키지의 silhouette 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 군집변수 (1개이상 필수)
    • - 군집변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 필수로 한 개의 변수가 선택되어야 합니다.
    • 데이터 표준화: 표준화된 데이터 값을 사용하려면 이 옵션을 선택하십시오.
  6. User interface: 변수설정 탭
    • 군집간 거리
    • - 핵심벡터를 중심으로 반경 거리를 입력하여 주십시오. - 최소 0이상이 입력되어야 하며, 값이 너무 작을 경우 군집이 하나도 형성되지 않을 수 있으며, 값이 너무 클 경우 하나의 군집만 형성될 수 있습니다.
    • 군집당 최소 샘플수
    • - 최소 한 군집 내에 몇 개의 샘플이 있어야 하는지 선택하여 주십시오. - 핵심벡터를 중심으로 군집간 거리 내에 군집당 최소 샘플 수 이상이 존재하면, 하나의 군집으로 형성됩니다.
    • 최단 이웃점 탐색 방법: 군집간 거리 측정 방법을 위해 아래 세 개 중 하나를 선택하십시오.
    • - Euclidean Distances : 유클리드 거리(Euclidean distance)를 이용해 계산합니다. - KD-tree search : 이원 탐색 트리 (binary tree search)를 다차원 공간으로 확장한 것으로, 트리의 레벨에 따라 차원을 번갈아 가며 비교해가며 트리를 만듭니다. - Linear search : 가장 가까운 지점을 찾기 위해 항상 다른 모든 지점까지의 거리를 계산합니다.
    •  실루엣 그래프: 군집분석(cluster analysis)의 정확도의 평가를 하고자 할 때 선택하십시오
  7. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 분석에 사용된 변수의 수(Number of used variables), 변수의 이름(Variables) 를 나타냅니다.
    • Description of Analysis: 최단 이웃점 탐색 방법(Nearest neighbor search), 군집간 거리(Epsilon), 군집단 최소 샘플 수(Minimum points), 실루엣(Silhouette) 유무를 나타냅니다.
    • DBSCAN Cluster k-Nearest Neighbor plot
    • - 설정된 군집단 최소 샘플수를 k라고 했을 때, k-최단 이웃점 탐색 방법으로 계산된 거리들을 순차적으로 나타내줍니다. - 출력되는 그림을 참고하여 군집간 거리를 참고하십시오. - 최소 샘플수가 k인 상황에서는, 출력된 그림의 y축이 급격히 상승하는 지점을 군집간 거리로 설정하면 좋습니다.
    • The number of observations of each cluster
    • - DBSCAN 군집분석(cluster analysis)의 결과를 보여줍니다. - Number of obs는 각 군집에 속해있는 샘플 수 입니다. - Noise는 어느 군집에도 속하지 않은 샘플 수 입니다.
    • DBSCAN clustering plot
    • - DBSCAN 군집분석(cluster analysis)의 결과를 각 변수별로 보여줍니다. - Noise에 해당하는 샘플들은 검은색 점으로 표현됩니다.
    • Silhouette plot of current cluster
    • - DBSCAN 군집분석(cluster analysis)에 의한 실루엣 너비를 보여줍니다. - 실루엣 값이 클수록 군집내 응집성이 높고, 군집간 분리성이 높아 군집이 잘 나누어진 것으로 판단할 수 있습니다.