Sök…


Introduktion

Rengöring av data i R är avgörande för att göra någon analys. oavsett vilken information du har, vare sig det är från mätningar som gjorts i fältet eller skrapas från webben är det troligt att du måste omforma den, transformera den eller filtrera den för att göra den lämplig för din analys. I denna dokumentation kommer vi att täcka följande ämnen: - Ta bort observationer med saknade data - Faktoriserande data - Ta bort ofullständiga rader

Ta bort saknade data från en vektor

Låt oss först skapa en vektor som heter Vector1:

set.seed(123)
Vector1 <- rnorm(20)

Och lägg till saknade data till det:

set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA

Nu kan vi använda is.na-funktionen för att dela upp vektorn

Vector1 <- Vector1[!is.na(Vector1)]

Nu kommer den resulterande vektorn att ha tagit bort NA: erna för den ursprungliga Vector1

Ta bort ofullständiga rader

Det kan finnas tillfällen där du har en dataram och du vill ta bort alla rader som kan innehålla ett NA-värde, för att funktionen complete.cases är det bästa alternativet.

Vi kommer att använda de första 6 raderna i luftkvalitetsdatasystemet för att göra ett exempel eftersom det redan har NA: er

x <- head(airquality)

Detta har två rader med NA i kolumnen Solar.R, för att ta bort dem gör vi följande

x_no_NA <- x[complete.cases(x),]

Det resulterande dataframe x_no_NA kommer endast att ha fullständiga rader utan NA



Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow