R Language
Données de nettoyage
Recherche…
Introduction
Le nettoyage des données dans R est primordial pour effectuer toute analyse. quelles que soient les données que vous ayez, que ce soit des mesures prises sur le terrain ou extraites du Web, il est plus probable que vous deviez le remodeler, le transformer ou le filtrer pour le rendre adapté à votre analyse. Dans cette documentation, nous aborderons les sujets suivants: - Suppression d'observations avec des données manquantes - Données de factorisation - Suppression de lignes incomplètes
Suppression des données manquantes d'un vecteur
Commençons par créer un vecteur appelé Vector1:
set.seed(123)
Vector1 <- rnorm(20)
Et ajoutez-y les données manquantes:
set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA
Maintenant, nous pouvons utiliser la fonction is.na pour sous-définir le vecteur
Vector1 <- Vector1[!is.na(Vector1)]
Maintenant, le vecteur résultant aura supprimé les NA du Vector1 original
Suppression de lignes incomplètes
Il peut arriver que vous ayez un bloc de données et que vous souhaitiez supprimer toutes les lignes pouvant contenir une valeur NA, pour que la fonction complete.cases soit la meilleure option.
Nous allons utiliser les 6 premières lignes du jeu de données airquality pour faire un exemple, car il a déjà des NA
x <- head(airquality)
Ceci a deux lignes avec des NA dans la colonne Solar.R, pour les supprimer nous faisons ce qui suit
x_no_NA <- x[complete.cases(x),]
Le x_no_NA de dataframe résultant uniquement aura des lignes complètes sans NAs
Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow