R Language
Gegevens opschonen
Zoeken…
Invoering
Het opschonen van gegevens in R is van het grootste belang om analyses te maken. welke gegevens u ook hebt, of het nu gaat om metingen die in het veld zijn uitgevoerd of van internet zijn verwijderd, het is zeer waarschijnlijk dat u deze opnieuw moet vormen, transformeren of filteren om deze geschikt te maken voor uw analyse. In deze documentatie behandelen we de volgende onderwerpen: - Waarnemingen met ontbrekende gegevens verwijderen - Gegevens ontbinden - Onvolledige rijen verwijderen
Ontbrekende gegevens uit een vector verwijderen
Laten we eerst een vector maken met de naam Vector1:
set.seed(123)
Vector1 <- rnorm(20)
En voeg er ontbrekende gegevens aan toe:
set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA
Nu kunnen we de functie is.na gebruiken om de vector te subsetten
Vector1 <- Vector1[!is.na(Vector1)]
Nu zal de resulterende vector de NA's van de originele Vector1 hebben verwijderd
Onvolledige rijen verwijderen
Het kan voorkomen dat u een gegevensframe hebt en dat u alle rijen wilt verwijderen die een NA-waarde kunnen bevatten, daarvoor is de functie complete.cases de beste optie.
We zullen de eerste 6 rijen van de gegevensset voor luchtkwaliteit gebruiken om een voorbeeld te maken, omdat deze al NA's heeft
x <- head(airquality)
Dit heeft twee rijen met NA's in de kolom Solar.R, om ze te verwijderen, doen we het volgende
x_no_NA <- x[complete.cases(x),]
Het resulterende dataframe x_no_NA heeft alleen volledige rijen zonder NA's
Modified text is an extract of the original Stack Overflow Documentation
Licentie onder CC BY-SA 3.0
Niet aangesloten bij Stack Overflow