R Language
सामान्यीकृत रैखिक मॉडल
खोज…
टाइटैनिक डेटासेट पर लॉजिस्टिक रिग्रेशन
लॉजिस्टिक रिग्रेशन सामान्यीकृत लीनियर मॉडल का एक विशेष मामला है, जिसका उपयोग द्विध्रुवीय परिणामों को मॉडल करने के लिए किया जाता है ( प्रोबेट और पूरक लॉग-लॉग मॉडल बारीकी से संबंधित हैं)।
नाम उपयोग किए गए लिंक फ़ंक्शन , लॉगिट या लॉग- ऑड फ़ंक्शन से आता है। लॉगिट के व्युत्क्रम फ़ंक्शन को लॉजिस्टिक फ़ंक्शन कहा जाता है और इसके द्वारा दिया जाता है:
यह फ़ंक्शन ] -Inf; + Inf [के बीच एक मान लेता है और 0 और 1 के बीच मान लौटाता है; यानी लॉजिस्टिक फ़ंक्शन एक रैखिक भविष्यवक्ता लेता है और एक संभावना देता है।
रसद प्रतिगमन का उपयोग किया जा सकता है glm
विकल्प के साथ समारोह family = binomial
(के लिए शॉर्टकट family = binomial(link="logit")
; logit द्विपद परिवार के लिए डिफ़ॉल्ट लिंक समारोह किया जा रहा है)।
इस उदाहरण में, हम RMS टाइटैनिक पर सवार यात्रियों के भाग्य की भविष्यवाणी करने का प्रयास करते हैं।
डेटा पढ़ें:
url <- "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
titanic <- read.csv(file = url, stringsAsFactors = FALSE)
लापता मूल्यों को साफ करें:
उस स्थिति में, हम लापता मानों को एक सन्निकटन, औसत से बदल देते हैं।
titanic$age[is.na(titanic$age)] <- mean(titanic$age, na.rm = TRUE)
मॉडल को प्रशिक्षित करें:
titanic.train <- glm(survived ~ pclass + sex + age,
family = binomial, data = titanic)
मॉडल का सारांश:
summary(titanic.train)
उत्पादन:
Call:
glm(formula = survived ~ pclass + sex + age, family = binomial, data = titanic)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6452 -0.6641 -0.3679 0.6123 2.5615
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.552261 0.342188 10.381 < 2e-16 ***
pclass2nd -1.170777 0.211559 -5.534 3.13e-08 ***
pclass3rd -2.430672 0.195157 -12.455 < 2e-16 ***
sexmale -2.463377 0.154587 -15.935 < 2e-16 ***
age -0.042235 0.007415 -5.696 1.23e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1686.8 on 1312 degrees of freedom
Residual deviance: 1165.7 on 1308 degrees of freedom
AIC: 1175.7
Number of Fisher Scoring iterations: 5
प्रदर्शित पहली चीज कॉल है। यह मॉडल और निर्दिष्ट विकल्पों की याद दिलाता है।
अगला हम अवशिष्ट अवशिष्टों को देखते हैं, जो मॉडल फिट का एक उपाय है। आउटपुट का यह हिस्सा मॉडल में उपयोग किए गए व्यक्तिगत मामलों के लिए अवशिष्ट अवशिष्टों के वितरण को दर्शाता है।
आउटपुट का अगला भाग गुणांक, उनकी मानक त्रुटियों, जेड-स्टेटिस्टिक (कभी-कभी वाल्ड जेड-स्टेटिस्टिक कहा जाता है), और संबंधित पी-मूल्यों को दर्शाता है।
- गुणात्मक चर "dummified" हैं। एक रूपता को संदर्भ के रूप में माना जाता है। सूत्र में
I
साथ संदर्भ रूपांतर बदला जा सकता है। - सभी चार भविष्यवक्ता 0.1% के स्तर पर सांख्यिकीय रूप से महत्वपूर्ण हैं।
- लॉजिस्टिक रिग्रेशन गुणांक पूर्वसूचक चर में एक इकाई वृद्धि के लिए परिणाम के लॉग ऑड में परिवर्तन देता है।
- ऑड्स अनुपात को देखने के लिए (भविष्यवाणियक चर में प्रति यूनिट उत्तरजीविता के अंतर में गुणा परिवर्तन), पैरामीटर को घातांक करें।
- पैरामीटर के विश्वास अंतराल (CI) को देखने के लिए,
confint
उपयोगconfint
।
- गुणात्मक चर "dummified" हैं। एक रूपता को संदर्भ के रूप में माना जाता है। सूत्र में
गुणांक की तालिका के नीचे फिट सूचक हैं, जिसमें अशक्त और अवशिष्ट अवशिष्ट और एकाइक सूचना मानदंड (एआईसी) शामिल हैं, जिनका उपयोग मॉडल प्रदर्शन की तुलना करने के लिए किया जा सकता है।
- जब एक ही डेटा के लिए अधिकतम संभावना द्वारा फिट किए गए मॉडलों की तुलना करते हैं, तो एआईसी जितना छोटा होता है, उतना ही बेहतर होता है।
- मॉडल फिट का एक उपाय समग्र मॉडल का महत्व है। यह परीक्षण पूछता है कि क्या भविष्यवक्ताओं के साथ मॉडल सिर्फ एक अवरोधन (यानी, एक अशक्त मॉडल) के साथ एक मॉडल की तुलना में बेहतर फिट बैठता है।
बाधाओं का उदाहरण अनुपात:
exp(coef(titanic.train)[3])
pclass3rd
0.08797765
इस मॉडल के साथ, पहली श्रेणी की तुलना में, तीसरी श्रेणी के यात्रियों में लगभग दसवां हिस्सा है।
मापदंडों के लिए विश्वास अंतराल का उदाहरण:
confint(titanic.train)
Waiting for profiling to be done...
2.5 % 97.5 %
(Intercept) 2.89486872 4.23734280
pclass2nd -1.58986065 -0.75987230
pclass3rd -2.81987935 -2.05419500
sexmale -2.77180962 -2.16528316
age -0.05695894 -0.02786211
समग्र मॉडल के महत्व की गणना का छूट:
परीक्षण सांख्यिकीय को वर्तमान और अशक्त मॉडल (यानी, मॉडल में पूर्वसूचक चर की संख्या) के बीच स्वतंत्रता की डिग्री में अंतर के बराबर स्वतंत्रता की डिग्री के साथ ची-वर्ग वितरित किया जाता है।
with(titanic.train, pchisq(null.deviance - deviance, df.null - df.residual
, lower.tail = FALSE))
[1] 1.892539e-111
पी-मूल्य 0 के पास है, एक दृढ़ता से महत्वपूर्ण मॉडल दिखा रहा है।