R Language
일반 선형 모델
수색…
타이 타이닉 데이터 집합의 로지스틱 회귀
로지스틱 회귀는 이분법 적 결과를 모델링하는 데 사용되는 일반화 된 선형 모델 의 특수한 경우입니다 ( 프로 비트 및 보완 로그 로그 모델은 밀접하게 관련되어 있음).
이름은 사용 된 링크 함수 , logit 또는 log-odds 함수에서옵니다. 로짓 의 역함수를 로지스틱 함수 라고하며 다음 과 같이 주어진다 :
이 함수는 -Inf; + Inf [ 사이의 값을 취하고 0 과 1 사이의 값을 반환합니다. 즉, 물류 함수 는 선형 예측자를 취하여 확률을 반환합니다.
로지스틱 회귀는 옵션 family = binomial
( family = binomial(link="logit")
대한 단축키 : logit 이 이항 가족의 기본 링크 함수 임 family = binomial(link="logit")
옵션을 사용하여 glm
함수를 사용하여 수행 할 수 있습니다.
이 예에서는 RMS 타이타닉 탑승객의 운명을 예측하려고합니다.
데이터 읽기 :
url <- "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
titanic <- read.csv(file = url, stringsAsFactors = FALSE)
누락 된 값을 정리하십시오.
이 경우 누락 된 값을 평균 인 근사값으로 대체합니다.
titanic$age[is.na(titanic$age)] <- mean(titanic$age, na.rm = TRUE)
모델 교육 :
titanic.train <- glm(survived ~ pclass + sex + age,
family = binomial, data = titanic)
모델 요약 :
summary(titanic.train)
출력 :
Call:
glm(formula = survived ~ pclass + sex + age, family = binomial, data = titanic)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6452 -0.6641 -0.3679 0.6123 2.5615
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.552261 0.342188 10.381 < 2e-16 ***
pclass2nd -1.170777 0.211559 -5.534 3.13e-08 ***
pclass3rd -2.430672 0.195157 -12.455 < 2e-16 ***
sexmale -2.463377 0.154587 -15.935 < 2e-16 ***
age -0.042235 0.007415 -5.696 1.23e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1686.8 on 1312 degrees of freedom
Residual deviance: 1165.7 on 1308 degrees of freedom
AIC: 1175.7
Number of Fisher Scoring iterations: 5
첫 번째로 표시되는 것은 호출입니다. 그것은 모델과 지정된 옵션을 생각 나게합니다.
다음으로 우리는 모델 적합성의 척도 인 편차 잔차를 봅니다. 이 출력 부분은 모델에 사용 된 개별 사례에 대한 편차 잔차의 분포를 보여줍니다.
출력의 다음 부분은 계수, 표준 오류, z- 통계량 (때때로 Wald z- 통계량이라고 함) 및 연관된 p- 값을 보여줍니다.
- 질적 변수는 "dummified"됩니다. 양상은 참조로 간주됩니다. 참조 양식은 수식에서
I
로 변경 될 수 있습니다. - 4 가지 예측 변수 모두 0.1 % 수준에서 통계적으로 유의미합니다.
- 로지스틱 회귀 계수는 예측 변수의 한 단위 증가에 대한 결과의 로그 확률의 변화를 나타냅니다.
- 교차비 (예측 변수에서 단위 증가 당 생존 확률의 승수 변화)를 보려면 매개 변수를 지수화하십시오.
- 매개 변수의 신뢰 구간 (CI)을 보려면
confint
사용confint
.
- 질적 변수는 "dummified"됩니다. 양상은 참조로 간주됩니다. 참조 양식은 수식에서
계수 표 아래에는 null 및 편차 잔차와 모델 성능 비교에 사용할 수있는 Akaike Information Criterion (AIC)과 같은 적합 지수가 있습니다.
- 동일한 데이터에 최대 우도로 맞춘 모델을 비교할 때 AIC가 작을수록 적합도가 높습니다.
- 모델 적합성에 대한 한 가지 척도는 전체 모델의 중요성입니다. 이 테스트는 예측자를 가진 모델이 절편 만있는 모델 (즉, 널 모델)보다 훨씬 더 잘 맞는지 여부를 묻습니다.
교차비의 예 :
exp(coef(titanic.train)[3])
pclass3rd
0.08797765
이 모델을 사용하면 1 등석에 비해 3 등석 승객은 생존 확률의 1/10을 차지합니다.
매개 변수의 신뢰 구간 예 :
confint(titanic.train)
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 2.89486872 4.23734280
pclass2nd -1.58986065 -0.75987230
pclass3rd -2.81987935 -2.05419500
sexmale -2.77180962 -2.16528316
age -0.05695894 -0.02786211
전체 모델의 중요성을 계산하는 예 :
테스트 통계는 현재와 널 모델 간의 자유도 (즉, 모델의 예측 변수 수)의 차이와 동일한 자유도로 카이 제곱으로 분포됩니다.
with(titanic.train, pchisq(null.deviance - deviance, df.null - df.residual
, lower.tail = FALSE))
[1] 1.892539e-111
p- 값은 0에 가까워 강하게 유의미한 모델을 나타냅니다.