Rex 분석 : Cox비례위험모형

  1. 분석모듈 설명
  2. Cox의 비례위험모형(Cox proportional hazards regression)은 시간-사건(사망) 데이터의 예측 모형을 만드는 통계분석 모듈입니다. 관측치(observations)는 독립이어야 하며 위험 비율은 시간에 관계없이 일정하다는 ‘비례 위험 가정’이 필요합니다. Cox model은 여러 가지 교란변수(confounding variable)를 통제한 상태에서 집단들 간의 생존율을 비교하는 경우, 혹은 여러 변수들이 동시에 생존 기간에 미치는 영향을 알아보고자 할 때 널리 쓰이는 다변량 분석 방법입니다.
  3. 분석에 사용된 R 패키지 및 함수
  4. * Main results : survival 패키지의 Surv, coxph 함수
    * 위에 나열된 결과 외에는 R의 기본함수를 사용하였음.
  5. User interface: 변수설정 탭
    • 
       	
    • 전체변수: 엑셀 스프레드시트에 있는 변수의 목록을 나타냅니다.
    • 시간변수
    • - 시간변수에 해당하는 변수를 변수목록으로부터 선택할 수 있습니다. - 반드시 한 개의 변수가 선택되어야 하며 양의 실수(positive real value)를 가진 변수만 가능합니다.
    • 상태변수
    • - 사건 혹은 중도절단의 정보를 담고 있는 상태변수(status variable)에 해당하는 변수를 변수목록으로부터 선택할 수 있습니다. - 반드시 한 개의 변수가 선택되어야 하며 0 과 1의 두 수준(level)으로 이루어진 변수만 가능합니다. - 사건은 1, 중도절단은 0으로 코딩되어야 하며 생존분석에서 사건은 보통 질병의 발생, 사망 등을 의미합니다.
    • 시간비종속 설명변수
    • - 위험비(hazard ratio)에 영향을 주는 설명변수(explanatory variable)로 시간에 따라 변화하지 않는 변수, 즉 시간비종속 변수(time-independent variable)를 입력할 수 있습니다. - 시간비종속 설명변수에 포함될 변수들의 유형을 지정해줍니다. - 시간변수, 상태변수와 중복되어 선택될 수 없습니다. - 질적변수(qualitative variable)와 양적변수(quantitative variable)는 서로 중복되어 선택될 수 없습니다. - 질적변수로 선택된 변수들은 문자로 인식되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다. - 한 개 이상의 변수를 입력할 수 있지만 변수를 선택하지 않아도 분석을 실시할 수 있습니다.
    • 주효과, 교호작용
    • - 질적변수 혹은 양적변수로 정의된 변수들 중 분석에 포함할 변수를 선택할 수 있는데, 여러 변수를 중복 선택하여 주효과 버튼을 클릭하면 최종모형에 주효과들이 포함되고, 교호작용 버튼을 클릭하면 선택된 변수들의 교호작용이 최종모형에 포함됩니다. - 설명변수로 선택된 변수에서 결측치를 포함하는 관측치(observation)는 분석에서 제외됩니다.
    • 시간종속변수 생성 및 추가
    • - 위험비(hazard ratio)에 영향을 주는 설명변수(explanatory variable)로 시간에 따라 변화하는 변수, 즉 시간종속변수(time-dependent variable)를 입력할 수 있습니다. - Cox비례위험모형에서는 다양한 시간종속변수 중 상태의 변화가 이분형(binary)으로 관찰된 변수만을 지원합니다. - 기준 시간변수: 상태의 변화가 일어난 시간 정보를 담고 있는 변수로, 전체변수로부터 선택할 수 있습니다. - 기준 상태변수: 상태의 변화(0 - censoring, 1 - event) 정보를 담고있는 변수로, 전체변수로부터 선택할 수 있습니다. 이 때, event는 질병의 발병 등의 사건이 일어난 것을 의미하고, 그렇지 않으면 0 으로 코딩합니다. - 신규변수명: 기준 시간변수와 기준 상태변수가 정의되면 사용자에 의해 신규변수명이 지정되어야 합니다. - 시간종속 설명변수 추가를 위한 세가지 요소(기준 시간변수, 기준 상태변수, 신규변수명)가 모두 충족되면 추가를 통해 최종모형에 추가할 수 있습니다.
    • 최종모형
    • - 분석에 최종적으로 사용 될 설명변수 정보로, 시간비종속 설명변수와 시간종속 설명변수로부터 추가될 수 있습니다. - 필수로 한 개 이상의 설명변수가 추가되어야 합니다.
  6. User interface: 출력옵션 탭
    • 
      	
    • 회귀계수
    • - 신뢰구간: 결과출력창에 회귀계수 추정값의 신뢰구간(confidence interval)을 출력하려면 이 옵션을 선택하십시오. - 신뢰수준(Confidence level)으로 0 과 1 사이의 값을 지정할 수 있습니다.
    • 지수 모수 추정량: 결과출력창에 지수(exponential) 회귀계수 추정값을 출력하려면 이 옵션을 선택하십시오.
    • 신뢰수준
    • - 그래프의 신뢰구간(confidence interval)을 위한 신뢰수준(confidence level)을 0 과 1 사이의 숫자로 입력할 수 있습니다.
    • 생존함수: 결과출력창에 생존함수(survival function) 그래프를 추가하려면 이 옵션을 선택하십시오.
    • 1-생존함수: 결과출력창에 1-생존함수(1-survival function) 그래프를 추가하려면 이 옵션을 선택하십시오.
    • 로그생존함수: 결과출력창에 로그생존함수(log-survival function) 그래프를 추가하려면 이 옵션을 선택하십시오.
    • 누적위험함수: 결과출력창에 누적위험함수(cumulative hazard function) 그래프를 추가하려면 이 옵션을 선택하십시오.
  7. User interface: 변수선택 탭
    • 
       	
    • 변수선택
    • - Cox비례위험모형 분석 수행 중 변수선택과정을 포함하기 위해서는 변수선택 옵션을 선택하십시오. - 변수선택방법으로는 ‘전진선택법(forward selection)’, ‘후진제거법(backward elimination)’, 또는 ‘단계별선택법(stepwise regression)’을 결정할 수 있습니다. - 전진선택법은 최종모형에 선택된 k개의 설명변수들 중에서 종속변수에 영향을 가장 미칠 것 같은 변수부터 하나씩 포함하면서 j(<=k)개의 변수를 선택하는 방법입니다. - 후진제거법은 최종모형에 선택된 k개의 설명변수들 중에서 종속변수에 영향을 가장 작게 미칠 것 같은 변수부터 하나씩 제거하면서 j(<=k)개의 변수를 선택하는 방법입니다. - 단계별선택법은 전진선택법과 후진제거법을 번갈아 수행하여 j(<=k)개의 변수를 선택하는 방법입니다. - 설명변수 창에는 최종모형에서 선택된 변수들이 나열되어 있으며, 이 중 변수선택과정과 상관없이 모형에 항상 포함되어 있어야 하는 변수는 고정변수 창으로 이동시켜야 합니다. 즉, 고정변수 창에 포함된 변수들은 변수선택과정과 상관없이 항상 모형에 포함되어 분석됩니다. - 모든 변수선택의 과정은 AIC를 기반으로 하고 있습니다.
  8. 결과출력창 해석
    • 	
    • Data Structure: 전체 관측치 수(Number of observations), 전체변수의 수(Number of total variables), 분석에 사용된 변수의 수(Number of used variables)를 나타냅니다.
    • Variable List
    • - 양적변수(Quantitative variable)와 질적변수(Qualitative variable)로 선택된 변수들 중 분석에 사용된 변수를 나타냅니다. - 질적변수로 포함된 변수는 무조건 문자형변수로 변환되어 분석에 사용됩니다. - 문자형변수는 양적변수로 선택될 수 없으며, 선택된 경우 분석에서 제외됩니다.
    • Analysis Description
    • - 시간변수(Time variable), 상태변수(Status variable), 모형(Model), 시간비종속 설명변수(Time-independent explanatory variable), 시간종속 설명변수(Time-dependent explanatory variable), 변수선택 여부(Variable selection)가 출력됩니다. - 변수선택 옵션을 선택한 경우, 변수선택 방법(Method for variable selection)과 고정변수(Fixed variable for variable selection)가 표시됩니다.
    • Coefficient Estimates
    • - 설명변수의 모수 추정치를 나타냅니다. - 각 열은 모수추정치(Estimate), 지수모수 추정치(exp(Estimate)), Estimate의 표준오차(SE(Estimate)), 검정통계량(Z-value), 유의확률(P-value), Estimate의 신뢰구간(Lower, Upper bound of **% CI)를 나타냅니다. - 모델적합도(Model fitness)에 관련한 측도로 설명력(Rsquare), 우도비검정(likelihood ratio test) 결과, 왈드검정(Wald test) 결과, 로그순위검정(log rank test) 결과를 제공합니다.
    • Survival function: 추정된 생존함수 그래프를 나타냅니다.
    • 1-Survival function: 추정된 1-생존함수 그래프를 나타냅니다.
    • Log Survival function: 추정된 로그생존함수 그래프를 나타냅니다.
    • Cumulative Hazard function: 추정된 누적위험함수 그래프를 나타냅니다.
    • Variable Selection
    • - Process of Variable Selection: 변수선택의 과정을 나타냅니다. - 각 단계(step)에서는 현재 모형과 그에 따른 AIC가 표시되고, 변수가 추가(+), 제거(-)되거나 혹은 현재 모델을 유지하였을 때의 AIC와 현재 모형과의 자유도의 차이(DF)를 나타냅니다. - AIC를 기준으로 오름차순으로 표가 정리되며, AIC가 가장 작은 모형을 그 단계의 최적모형으로 선택합니다. - 현재 모형이 최적모형이 될 때 까지 단계를 반복합니다. - Result of Variable Selection: 변수선택 초기 모형(Initial Model)과 최종 모형(Final Model)을 나타냅니다.
  9. Warning 메세지
  10. * 시간변수가 양의 실수가 아닌 경우 아래의 메시지와 함께 분석이 종료됩니다. (Error: Time variable should be positive numeric.)
    * 상태변수로 0 또는 1 이외의 값을 갖는 변수가 선택된 경우 아래의 메시지와 함께 분석이 종료됩니다. (Error: Invalid values of status variable are observed (Expected value: 0 - censoring, 1 - event).) 
    * 분석에 사용할 수 있는 설명변수가 하나도 없는 경우 아래의 메시지와 함께 분석이 종료됩니다. (Error: At least one explanatory variable should be included. Analysis has been stopped.)