Rex 분석 : 거리측도

  1. 분석모듈 설명
  2. 거리측도(Distance Measure)는 대응관측치나 대응변수 간 비유사성(Dis-similarity)을 거리(Distance)를 이용하여 측정하는 모듈입니다. 거리는 데이터의 변수의 형태(연속형, 이분형)에 따라서 그 계산법이 다릅니다. 따라서, 데이터의 속성, 구조에 따라서 적합한 것을 사용해야 합니다. 거리계산은 크게 2가지로 변수간 계산과 관측치간 계산이 있습니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * philentropy 패키지의 distance 함수
    * ade4 패키지의 binary 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 연속형변수(Continuous variable)
    • - 연속형 변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 두 개 이상의 변수가 선택되어야 하며, 이분형변수와 중복되어 선택될 수 없습니다. - 연속형변수 표준화 옵션을 사용하면, 선택된 변수들을 표준정규분포를 따르게 변환한 뒤, 거리계산을 시행합니다. - 양적 변수만 사용 가능합니다.
    • 이분형변수(Binary variable)
    • - 이분형 변수에 해당하는 변수를 전체변수로부터 선택할 수 있습니다. - 두 개 이상의 변수가 선택되어야 하며, 연속형변수와 중복되어 선택될 수 없습니다. - 양적 변수만 사용 가능합니다. 질적 변수일 경우 양적으로 변환하여야 합니다.
    • 거리계산
    • - 변수간 거리 또는 관측치간 거리 계산을 설정합니다. - 관측치간 거리 계산을 선택할 경우, 출력되는 결과의 값이 크기 때문에 csv 형식의 파일로 입력한 저장경로에 저장합니다.
    • 로그변환시 사용될 밑: 연속형변수의 거리 계산 과정에서 변수 로그변환(Log Transformation)에 사용될 밑을 설정합니다. 설정할 수 있는 밑은 자연상수(e), 2, 10으로 총 세가지가 있습니다.
  6. User interface: 거리측도 탭
    • 연속형변수
    • - 연속형변수 간의 거리를 계산하기 위한 방법을 선택합니다. 변수설정 탭에서 연속형변수를 선택했을 때 활성화 됩니다. - 연속형변수의 거리 계산 옵션은 다음과 같습니다. 옵션들은 중복 선택 가능합니다.
      Family Difference
      Lp Minkowski Euclidean, Manhattan, Chebyshev, Minkowski
      L1 Sorensen, Gower, Soergel, Kulczynski d, Canberra
      Intersection Intersection, Non-Intersection, Wavehedges, Czekanowski, Motyka
      Squared_chord Fidelity, Bhattacharyya, Squared-Chord, Sqared-Euclidean
      Squared L2 Pearson, Neyman, Squared-Chi
      Inner Product Inner Product, Harmonic mean, Cosine, Hassebrook, Jaccard
      Shannon’s entropy Jeffreys, Topsoe, Jenhen-Shannon, Jensen difference
      Combinations Taneja, Kumar-Johnson, Avg
    • 이분형변수
    • - 이분형변수 간의 거리를 계산하기 위한 방법을 선택합니다. 변수설정 탭에서 이분형변수를 선택했을 때 활성화 됩니다. - 이분형변수의 거리 계산 옵션은 다음과 같습니다. 옵션들을 중복해서 선택할 수 있습니다: Jaccard S3, Sockal Michener S4, Sockal Sneath S5, Rogers Tanimoto S6, Czekanowski S7, Gower Legendre S9, Ochiai S12, Sokal Sneath S13, Phi of Pearson S14, Gower Legendre S2
  7. User interface: 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 전체 변수의 수(Number of total variables), 분석에 사용된 변수의 수(Number of used variables)를 나타냅니다.
    • Variable List
    • - 연속형변수와 이분형변수로 선택된 변수들 중 분석에 사용된 변수를 나타냅니다. - 질적변수는 이분형변수로 선택될 수 없으며, 선택된 경우 분석과정에서 오류가 발생하게 됩니다.
    • Analysis Description
    • - 분석에 사용된 옵션들의 간략한 정보를 나타냅니다. - Measuring distances between는 변수 간 또는 관측치 간 거리계산을 했는지에 대한 정보를 나타냅니다. - Standardization for continuous variable는 연속형변수 거리 계산 시 표준화 옵션을 사용했는지에 대한 정보를 나타냅니다. - Method는 거리 계산에서 선택된 옵션들의 목록을 나타냅니다. - Base of log-transformation은 연속형변수의 거리계산에서 로그변환시 사용된 밑을 나타냅니다.
    • Case Proccess Summary
    • - 거리측도에서는 선택된 변수들 중에서 Missing값이 하나라도 있는 관측치를 제외한 뒤에 거리계산을 시행합니다. - 전체 관측치 중에서 선택된 변수들의 거리 계산에 사용된 관측치와 Missing 값이 하나라도 포함된 관측치의 수와 비율(%)를 나타냅니다.
    • Distances between Variables
    • - 변수 간 거리 계산을 실행하였을 때 그 결과를 나타냅니다. - 연속형변수와 이분형변수 별로 그 결과를 나타냅니다. - 거리측도 옵션에서 선택한 방법 별로 그 결과를 보여줍니다. - 연속형변수의 경우에는 선택한 변수가 2개일 경우에는 두 변수 간의 거리를 보여주며, 3개 이상일 경우에는 교차표(Cross Table)로 그 결과를 보여줍니다. - 이분형변수의 경우에는 변수간 거리를 교차표로 그 결과를 보여줍니다.
    • Distances between Observations
    • - 관측치 간 거리 계산을 실행하였을 때 결과가 csv파일 형식으로 저장된 경로를 나타냅니다. - 분석 결과는 “변수형태_distance_거리측도 옵션 명_result_by_obs” 형식의 파일명으로 저장됩니다.