खोज…


टाइटैनिक डेटासेट पर लॉजिस्टिक रिग्रेशन

लॉजिस्टिक रिग्रेशन सामान्यीकृत लीनियर मॉडल का एक विशेष मामला है, जिसका उपयोग द्विध्रुवीय परिणामों को मॉडल करने के लिए किया जाता है ( प्रोबेट और पूरक लॉग-लॉग मॉडल बारीकी से संबंधित हैं)।

नाम उपयोग किए गए लिंक फ़ंक्शन , लॉगिट या लॉग- ऑड फ़ंक्शन से आता है। लॉगिट के व्युत्क्रम फ़ंक्शन को लॉजिस्टिक फ़ंक्शन कहा जाता है और इसके द्वारा दिया जाता है:

यह फ़ंक्शन ] -Inf; + Inf [के बीच एक मान लेता है और 0 और 1 के बीच मान लौटाता है; यानी लॉजिस्टिक फ़ंक्शन एक रैखिक भविष्यवक्ता लेता है और एक संभावना देता है।

रसद प्रतिगमन का उपयोग किया जा सकता है glm विकल्प के साथ समारोह family = binomial (के लिए शॉर्टकट family = binomial(link="logit") ; logit द्विपद परिवार के लिए डिफ़ॉल्ट लिंक समारोह किया जा रहा है)।

इस उदाहरण में, हम RMS टाइटैनिक पर सवार यात्रियों के भाग्य की भविष्यवाणी करने का प्रयास करते हैं।

डेटा पढ़ें:

url <- "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
titanic <- read.csv(file = url, stringsAsFactors = FALSE)

लापता मूल्यों को साफ करें:

उस स्थिति में, हम लापता मानों को एक सन्निकटन, औसत से बदल देते हैं।

titanic$age[is.na(titanic$age)] <- mean(titanic$age, na.rm = TRUE) 

मॉडल को प्रशिक्षित करें:

titanic.train <- glm(survived ~ pclass + sex + age,
                         family = binomial, data = titanic)

मॉडल का सारांश:

summary(titanic.train)

उत्पादन:

Call:
glm(formula = survived ~ pclass + sex + age, family = binomial, data = titanic)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.6452  -0.6641  -0.3679   0.6123   2.5615  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  3.552261   0.342188  10.381  < 2e-16 ***
pclass2nd   -1.170777   0.211559  -5.534 3.13e-08 ***
pclass3rd   -2.430672   0.195157 -12.455  < 2e-16 ***
sexmale     -2.463377   0.154587 -15.935  < 2e-16 ***
age         -0.042235   0.007415  -5.696 1.23e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1686.8  on 1312  degrees of freedom
Residual deviance: 1165.7  on 1308  degrees of freedom
AIC: 1175.7

Number of Fisher Scoring iterations: 5
  • प्रदर्शित पहली चीज कॉल है। यह मॉडल और निर्दिष्ट विकल्पों की याद दिलाता है।

  • अगला हम अवशिष्ट अवशिष्टों को देखते हैं, जो मॉडल फिट का एक उपाय है। आउटपुट का यह हिस्सा मॉडल में उपयोग किए गए व्यक्तिगत मामलों के लिए अवशिष्ट अवशिष्टों के वितरण को दर्शाता है।

  • आउटपुट का अगला भाग गुणांक, उनकी मानक त्रुटियों, जेड-स्टेटिस्टिक (कभी-कभी वाल्ड जेड-स्टेटिस्टिक कहा जाता है), और संबंधित पी-मूल्यों को दर्शाता है।

    • गुणात्मक चर "dummified" हैं। एक रूपता को संदर्भ के रूप में माना जाता है। सूत्र में I साथ संदर्भ रूपांतर बदला जा सकता है।
    • सभी चार भविष्यवक्ता 0.1% के स्तर पर सांख्यिकीय रूप से महत्वपूर्ण हैं।
    • लॉजिस्टिक रिग्रेशन गुणांक पूर्वसूचक चर में एक इकाई वृद्धि के लिए परिणाम के लॉग ऑड में परिवर्तन देता है।
    • ऑड्स अनुपात को देखने के लिए (भविष्यवाणियक चर में प्रति यूनिट उत्तरजीविता के अंतर में गुणा परिवर्तन), पैरामीटर को घातांक करें।
    • पैरामीटर के विश्वास अंतराल (CI) को देखने के लिए, confint उपयोग confint
  • गुणांक की तालिका के नीचे फिट सूचक हैं, जिसमें अशक्त और अवशिष्ट अवशिष्ट और एकाइक सूचना मानदंड (एआईसी) शामिल हैं, जिनका उपयोग मॉडल प्रदर्शन की तुलना करने के लिए किया जा सकता है।

    • जब एक ही डेटा के लिए अधिकतम संभावना द्वारा फिट किए गए मॉडलों की तुलना करते हैं, तो एआईसी जितना छोटा होता है, उतना ही बेहतर होता है।
    • मॉडल फिट का एक उपाय समग्र मॉडल का महत्व है। यह परीक्षण पूछता है कि क्या भविष्यवक्ताओं के साथ मॉडल सिर्फ एक अवरोधन (यानी, एक अशक्त मॉडल) के साथ एक मॉडल की तुलना में बेहतर फिट बैठता है।

बाधाओं का उदाहरण अनुपात:

exp(coef(titanic.train)[3])

 pclass3rd 
0.08797765 

इस मॉडल के साथ, पहली श्रेणी की तुलना में, तीसरी श्रेणी के यात्रियों में लगभग दसवां हिस्सा है।

मापदंडों के लिए विश्वास अंतराल का उदाहरण:

confint(titanic.train)

Waiting for profiling to be done...
                  2.5 %      97.5 %
(Intercept)  2.89486872  4.23734280
pclass2nd   -1.58986065 -0.75987230
pclass3rd   -2.81987935 -2.05419500
sexmale     -2.77180962 -2.16528316
age         -0.05695894 -0.02786211

समग्र मॉडल के महत्व की गणना का छूट:

परीक्षण सांख्यिकीय को वर्तमान और अशक्त मॉडल (यानी, मॉडल में पूर्वसूचक चर की संख्या) के बीच स्वतंत्रता की डिग्री में अंतर के बराबर स्वतंत्रता की डिग्री के साथ ची-वर्ग वितरित किया जाता है।

with(titanic.train, pchisq(null.deviance - deviance, df.null - df.residual
, lower.tail = FALSE))
[1] 1.892539e-111

पी-मूल्य 0 के पास है, एक दृढ़ता से महत्वपूर्ण मॉडल दिखा रहा है।



Modified text is an extract of the original Stack Overflow Documentation
के तहत लाइसेंस प्राप्त है CC BY-SA 3.0
से संबद्ध नहीं है Stack Overflow