R Language
Dati di pulizia
Ricerca…
introduzione
La pulizia dei dati in R è fondamentale per effettuare qualsiasi analisi. qualunque sia il tuo dato, sia che si tratti di misure prese sul campo o raschiate via web, è molto probabile che dovrai modificarlo, trasformarlo o filtrarlo per renderlo adatto alla tua analisi. In questa documentazione, tratteremo i seguenti argomenti: - Eliminazione di osservazioni con dati mancanti - Dati di Factorizing - Rimozione di righe incomplete
Rimozione dei dati mancanti da un vettore
Per prima cosa creiamo un vettore chiamato Vector1:
set.seed(123)
Vector1 <- rnorm(20)
E aggiungi i dati mancanti ad esso:
set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA
Ora possiamo usare la funzione is.na per impostare il sottoinsieme del vettore
Vector1 <- Vector1[!is.na(Vector1)]
Ora il vettore risultante avrà rimosso le NA del vettore 1 originale
Rimozione di righe incomplete
Ci possono essere momenti in cui si dispone di un frame di dati e si desidera rimuovere tutte le righe che potrebbero contenere un valore di NA, per cui la funzione complete.cases è l'opzione migliore.
Utilizzeremo le prime 6 righe del set di dati di airquality per fare un esempio poiché ha già NA
x <- head(airquality)
Questo ha due righe con NA nella colonna Solar.R, per rimuoverle facciamo quanto segue
x_no_NA <- x[complete.cases(x),]
Il dataframe x_no_NA risultante avrà solo righe complete senza AN
Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow