Ricerca…


introduzione

La pulizia dei dati in R è fondamentale per effettuare qualsiasi analisi. qualunque sia il tuo dato, sia che si tratti di misure prese sul campo o raschiate via web, è molto probabile che dovrai modificarlo, trasformarlo o filtrarlo per renderlo adatto alla tua analisi. In questa documentazione, tratteremo i seguenti argomenti: - Eliminazione di osservazioni con dati mancanti - Dati di Factorizing - Rimozione di righe incomplete

Rimozione dei dati mancanti da un vettore

Per prima cosa creiamo un vettore chiamato Vector1:

set.seed(123)
Vector1 <- rnorm(20)

E aggiungi i dati mancanti ad esso:

set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA

Ora possiamo usare la funzione is.na per impostare il sottoinsieme del vettore

Vector1 <- Vector1[!is.na(Vector1)]

Ora il vettore risultante avrà rimosso le NA del vettore 1 originale

Rimozione di righe incomplete

Ci possono essere momenti in cui si dispone di un frame di dati e si desidera rimuovere tutte le righe che potrebbero contenere un valore di NA, per cui la funzione complete.cases è l'opzione migliore.

Utilizzeremo le prime 6 righe del set di dati di airquality per fare un esempio poiché ha già NA

x <- head(airquality)

Questo ha due righe con NA nella colonna Solar.R, per rimuoverle facciamo quanto segue

x_no_NA <- x[complete.cases(x),]

Il dataframe x_no_NA risultante avrà solo righe complete senza AN



Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow