Suche…


Einführung

Das Reinigen von Daten in R ist für jede Analyse von größter Bedeutung. Unabhängig von den Daten, die Sie haben, sei es durch Messungen, die Sie im Feld gemacht oder aus dem Web entnommen haben, ist es sehr wahrscheinlich, dass Sie sie umformen, transformieren oder filtern müssen, damit sie für Ihre Analyse geeignet sind. In dieser Dokumentation werden die folgenden Themen behandelt: - Entfernen von Beobachtungen mit fehlenden Daten - Faktorisieren von Daten - Entfernen unvollständiger Zeilen

Fehlende Daten aus einem Vektor entfernen

Zuerst können wir einen Vektor mit dem Namen Vector1 erstellen:

set.seed(123)
Vector1 <- rnorm(20)

Und fügen Sie fehlende Daten hinzu:

set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA

Jetzt können wir die is.na-Funktion verwenden, um den Vektor zu subsetieren

Vector1 <- Vector1[!is.na(Vector1)]

Der resultierende Vektor hat nun die NAs des ursprünglichen Vector1 entfernt

Unvollständige Zeilen entfernen

Es kann vorkommen, dass Sie einen Datenrahmen haben und alle Zeilen entfernen möchten, die möglicherweise einen NA-Wert enthalten. Dazu ist die Funktion complete.cases die beste Option.

Wir werden die ersten 6 Zeilen des Luftqualitäts- Datasets verwenden, um ein Beispiel zu machen, da es bereits NAs hat

x <- head(airquality)

Dies hat zwei Zeilen mit NAs in der Solar.R-Spalte. Um diese zu entfernen, führen wir die folgenden Schritte aus

x_no_NA <- x[complete.cases(x),]

Der resultierende Datenrahmen x_no_NA enthält nur vollständige Zeilen ohne NAs



Modified text is an extract of the original Stack Overflow Documentation
Lizenziert unter CC BY-SA 3.0
Nicht angeschlossen an Stack Overflow