R Language
Rengöringsdata
Sök…
Introduktion
Rengöring av data i R är avgörande för att göra någon analys. oavsett vilken information du har, vare sig det är från mätningar som gjorts i fältet eller skrapas från webben är det troligt att du måste omforma den, transformera den eller filtrera den för att göra den lämplig för din analys. I denna dokumentation kommer vi att täcka följande ämnen: - Ta bort observationer med saknade data - Faktoriserande data - Ta bort ofullständiga rader
Ta bort saknade data från en vektor
Låt oss först skapa en vektor som heter Vector1:
set.seed(123)
Vector1 <- rnorm(20)
Och lägg till saknade data till det:
set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA
Nu kan vi använda is.na-funktionen för att dela upp vektorn
Vector1 <- Vector1[!is.na(Vector1)]
Nu kommer den resulterande vektorn att ha tagit bort NA: erna för den ursprungliga Vector1
Ta bort ofullständiga rader
Det kan finnas tillfällen där du har en dataram och du vill ta bort alla rader som kan innehålla ett NA-värde, för att funktionen complete.cases är det bästa alternativet.
Vi kommer att använda de första 6 raderna i luftkvalitetsdatasystemet för att göra ett exempel eftersom det redan har NA: er
x <- head(airquality)
Detta har två rader med NA i kolumnen Solar.R, för att ta bort dem gör vi följande
x_no_NA <- x[complete.cases(x),]
Det resulterande dataframe x_no_NA kommer endast att ha fullständiga rader utan NA
Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow