수색…


타이 타이닉 데이터 집합의 로지스틱 회귀

로지스틱 회귀는 이분법 적 결과를 모델링하는 데 사용되는 일반화 된 선형 모델 의 특수한 경우입니다 ( 프로 비트보완 로그 로그 모델은 밀접하게 관련되어 있음).

이름은 사용 된 링크 함수 , logit 또는 log-odds 함수에서옵니다. 로짓 의 역함수를 로지스틱 함수 라고하며 다음 과 같이 주어진다 :

이 함수는 -Inf; + Inf [ 사이의 값을 취하고 01 사이의 값을 반환합니다. 즉, 물류 함수 는 선형 예측자를 취하여 확률을 반환합니다.

로지스틱 회귀는 옵션 family = binomial ( family = binomial(link="logit") 대한 단축키 : logit 이 이항 가족의 기본 링크 함수 임 family = binomial(link="logit") 옵션을 사용하여 glm 함수를 사용하여 수행 할 수 있습니다.

이 예에서는 RMS 타이타닉 탑승객의 운명을 예측하려고합니다.

데이터 읽기 :

url <- "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
titanic <- read.csv(file = url, stringsAsFactors = FALSE)

누락 된 값을 정리하십시오.

이 경우 누락 된 값을 평균 인 근사값으로 대체합니다.

titanic$age[is.na(titanic$age)] <- mean(titanic$age, na.rm = TRUE) 

모델 교육 :

titanic.train <- glm(survived ~ pclass + sex + age,
                         family = binomial, data = titanic)

모델 요약 :

summary(titanic.train)

출력 :

Call:
glm(formula = survived ~ pclass + sex + age, family = binomial, data = titanic)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.6452  -0.6641  -0.3679   0.6123   2.5615  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.552261   0.342188  10.381  < 2e-16 ***
pclass2nd   -1.170777   0.211559  -5.534 3.13e-08 ***
pclass3rd   -2.430672   0.195157 -12.455  < 2e-16 ***
sexmale     -2.463377   0.154587 -15.935  < 2e-16 ***
age         -0.042235   0.007415  -5.696 1.23e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1686.8  on 1312  degrees of freedom
Residual deviance: 1165.7  on 1308  degrees of freedom
AIC: 1175.7

Number of Fisher Scoring iterations: 5
  • 첫 번째로 표시되는 것은 호출입니다. 그것은 모델과 지정된 옵션을 생각 나게합니다.

  • 다음으로 우리는 모델 적합성의 척도 인 편차 잔차를 봅니다. 이 출력 부분은 모델에 사용 된 개별 사례에 대한 편차 잔차의 분포를 보여줍니다.

  • 출력의 다음 부분은 계수, 표준 오류, z- 통계량 (때때로 Wald z- 통계량이라고 함) 및 연관된 p- 값을 보여줍니다.

    • 질적 변수는 "dummified"됩니다. 양상은 참조로 간주됩니다. 참조 양식은 수식에서 I 로 변경 될 수 있습니다.
    • 4 가지 예측 변수 모두 0.1 % 수준에서 통계적으로 유의미합니다.
    • 로지스틱 회귀 계수는 예측 변수의 한 단위 증가에 대한 결과의 로그 확률의 변화를 나타냅니다.
    • 교차비 (예측 변수에서 단위 증가 당 생존 확률의 승수 변화)를 보려면 매개 변수를 지수화하십시오.
    • 매개 변수의 신뢰 구간 (CI)을 보려면 confint 사용 confint .
  • 계수 표 아래에는 null 및 편차 잔차와 모델 성능 비교에 사용할 수있는 Akaike Information Criterion (AIC)과 같은 적합 지수가 있습니다.

    • 동일한 데이터에 최대 우도로 맞춘 모델을 비교할 때 AIC가 작을수록 적합도가 높습니다.
    • 모델 적합성에 대한 한 가지 척도는 전체 모델의 중요성입니다. 이 테스트는 예측자를 가진 모델이 절편 만있는 모델 (즉, 널 모델)보다 훨씬 더 잘 맞는지 여부를 묻습니다.

교차비의 예 :

exp(coef(titanic.train)[3])

 pclass3rd 
0.08797765 

이 모델을 사용하면 1 등석에 비해 3 등석 승객은 생존 확률의 1/10을 차지합니다.

매개 변수의 신뢰 구간 예 :

confint(titanic.train)

Waiting for profiling to be done...
                  2.5 %      97.5 %
(Intercept)  2.89486872  4.23734280
pclass2nd   -1.58986065 -0.75987230
pclass3rd   -2.81987935 -2.05419500
sexmale     -2.77180962 -2.16528316
age         -0.05695894 -0.02786211

전체 모델의 중요성을 계산하는 예 :

테스트 통계는 현재와 널 모델 간의 자유도 (즉, 모델의 예측 변수 수)의 차이와 동일한 자유도로 카이 제곱으로 분포됩니다.

with(titanic.train, pchisq(null.deviance - deviance, df.null - df.residual
, lower.tail = FALSE))
[1] 1.892539e-111

p- 값은 0에 가까워 강하게 유의미한 모델을 나타냅니다.



Modified text is an extract of the original Stack Overflow Documentation
아래 라이선스 CC BY-SA 3.0
와 제휴하지 않음 Stack Overflow