Recherche…


Introduction

Le nettoyage des données dans R est primordial pour effectuer toute analyse. quelles que soient les données que vous ayez, que ce soit des mesures prises sur le terrain ou extraites du Web, il est plus probable que vous deviez le remodeler, le transformer ou le filtrer pour le rendre adapté à votre analyse. Dans cette documentation, nous aborderons les sujets suivants: - Suppression d'observations avec des données manquantes - Données de factorisation - Suppression de lignes incomplètes

Suppression des données manquantes d'un vecteur

Commençons par créer un vecteur appelé Vector1:

set.seed(123)
Vector1 <- rnorm(20)

Et ajoutez-y les données manquantes:

set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA

Maintenant, nous pouvons utiliser la fonction is.na pour sous-définir le vecteur

Vector1 <- Vector1[!is.na(Vector1)]

Maintenant, le vecteur résultant aura supprimé les NA du Vector1 original

Suppression de lignes incomplètes

Il peut arriver que vous ayez un bloc de données et que vous souhaitiez supprimer toutes les lignes pouvant contenir une valeur NA, pour que la fonction complete.cases soit la meilleure option.

Nous allons utiliser les 6 premières lignes du jeu de données airquality pour faire un exemple, car il a déjà des NA

x <- head(airquality)

Ceci a deux lignes avec des NA dans la colonne Solar.R, pour les supprimer nous faisons ce qui suit

x_no_NA <- x[complete.cases(x),]

Le x_no_NA de dataframe résultant uniquement aura des lignes complètes sans NAs



Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow