Rex 분석 : 편최소제곱

  1. 분석모듈 설명
  2. 편최소제곱 회귀분석(Partial Least Squares Regression, PLSR)은 한 개 이상의 종속변수(dependent variables)와 한 개 이상의 설명변수(explanatory variables) 사이의 관계를 설명하기 위해 사용하는 통계분석 모듈입니다. 선형회귀분석(linear regression analysis)의 중요한 가정 중 하나인 예측변수들간의 공선성(collinearity)이 높거나 예측변수의 수가 관측자 수 보다 많을 경우 최적의 모수 추정치을 구할 수 없는데, 이를 보완하기 위하여 사용합니다. 즉, 예측변수들을 상관 관계가 없도록 새로운 예측변수로 가공하여 일변량(univariate) 또는 다중 회귀(multiple regression)분석을 통해서 선형회귀분석(linear regression analysis)을 실시하게 되는데, 이를 통해 최적의 모수 추정치을 계산할 수 있습니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * plsdepot 패키지의 plsreg1 함수
    * plsdepot 패키지의 plsreg2 함수
  5. User interface: 변수설정 탭
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 질적변수, 양적변수
  6. User interface: 출력옵션 탭
    • 차원
    • - 예측변수의 component의 수(dimension)를 지정할 수 있습니다. - Dimension의 수는 기본값으로 2가 설정 되어있으며 변경 가능합니다. (최소 2, 최대 설명변수의 총 수까지 설정 가능합니다.)
    • Cross Validation
    • - 교차검증(Cross Validation) 과정은 전체 데이터를 학습 데이터(train set)와 검정 데이터(test set)로 나눠서 학습데이터를 이용해서 모형을 구축 하고 검증 데이터를 이용해서 평가를 반복 실시합니다. - 이때, 새로 생성되는 예측변수의 Dimension의 수를 결정 하기 위한 방법으로 사용 할 수 있습니다. - 그러나, dimension의 옵션이 ‘NULL’인 경우 ‘Yes’ 옵션 선택만 가능합니다.
    • 저장
    • - 예측값(Predictive Value)을 엑셀 시트에 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: Pred_xxx) - 잔차(Residuals)를 엑셀 시트에 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: Resid_xxx) - X Scores을 엑셀 시트에 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: Xscore_t1, Xscore_t2,….) - Y Scores을 엑셀 시트에 저장하려면 이 옵션을 선택하십시오. (저장될 변수 이름: Yscore_u1, Yscore_u2,….)
  7. 결과출력창 해석
    •  	
    • Data Structure: 전체 관측치 수(Number of observations), 질적변수에 n개의 범주를 가지는 변수가 선택되는 경우 n-1개의 새로운 변수가 생성되며 변수명은 변수명_i로 생성됩니다. (in 는 기저범주 제외)
    • Model Information
    • - 종속변수(와 예측변수(Predictor variables)에 선택된 변수들을 나타냅니다. - 질적변수로 포함된 변수는 무조건 질적 변수로 변환되어 분석에 사용됩니다. - 질적 변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다.
    • Results of Partial Least Squares Data Analysis Methods
    • - X-Loadings: 설명변수(들)의 loading값(들)을 출력합니다. - Y-Loadings: 종속변수(들)의 loading값(들)을 출력합니다. - Correlation: 종속변수(Y)/설명변수(X)들과 PLS-components(U/T)간의 상관행렬(들)을 출력합니다.((X,Y), (Y,T) , (X,U), (Y,U), (T,U)) - Raw Weights: PLS(Partial Least Square) 점수(score)를 계산하기 위하여 사용된 가중치입니다. 설명변수의 디플레이트 된 행렬(deflated matrices)을 이용합니다. - Modified Weights: PLS 점수를 계산하기 위하여 사용된 수정된 가중치입니다. - Regular Coefficients: 회귀계수 입니다. 원데이터를 사용합니다. - Standard Coefficients: 표준화 회귀계수 입니다. 표준화된 데이터를 사용합니다. - R2: 종속변수가 1개인 경우 출력됩니다. Cross Validation 옵션에서 ‘No’를 선택하면, 출력되지 않습니다. - Explained Variance - Variable Importance for Projection (VIP) - T2 Hotelling: 종속변수가 1개인 경우 출력됩니다. Cross Validation 옵션에서 ‘No’를 선택하면, 출력되지 않습니다. - Q2 cross validation: 종속변수가 1개인 경우 출력됩니다. Cross Validation 옵션에서 ‘No’를 선택하면, 출력되지 않습니다. - PRESS(Predictive Residual Error Sum of Squares): 검증 데이터에서 계산합니다. - RSS(Residual Sum of Squares): 학습 데이터에서 계산합니다. - Q2 : 1-PRESS - LimQ2: - Q2cum - Q2 Index: 종속변수가 2개이상 선택 된 경우 출력됩니다. Cross Validation 옵션에서 ‘No’를 선택하면, 출력되지 않습니다. - Cumulated Q2: 종속변수가 2개이상 선택 된 경우 출력됩니다. Cross Validation 옵션에서 ‘No’를 선택하면, 출력되지 않습니다.
  8. Warning 메세지
  9. * 종속변수가 선택하지 않으면 아래의 메시지와 함께 분석이 종료됩니다. (Error : At least 1 independent variable should be selected. Analysis has been stopped.)
    * 설명변수가 2개이상 선택되지 않으면 아래의 메시지와 함께 분석이 종료됩니다. (Error : At least 2 dependent variable should be selected. Analysis has been stopped.)