R Language => Очистка данных

Вступление

Очистка данных в R имеет первостепенное значение для проведения любого анализа. любые данные, которые у вас есть, будь то измерения, сделанные в поле или очищенные от Интернета, наиболее вероятно, что вам придется изменить его, преобразовать или фильтровать, чтобы он был подходящим для вашего анализа. В этой документации мы рассмотрим следующие темы: - Удаление наблюдений с отсутствующими данными - Факторизация данных - Удаление неполных строк

Удаление отсутствующих данных из вектора

Сначала создадим вектор Vector1:

set.seed(123)
Vector1 <- rnorm(20)

И добавьте к нему недостающие данные:

set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA

Теперь мы можем использовать функцию is.na для подмножества вектора

Vector1 <- Vector1[!is.na(Vector1)]

Теперь полученный вектор удалит NAs исходного Vector1

Удаление неполных строк

Могут быть моменты, когда у вас есть кадр данных, и вы хотите удалить все строки, которые могут содержать значение NA, поскольку функция complete.cases является наилучшим вариантом.

Мы будем использовать первые 6 строк набора данных для обеспечения качества, чтобы сделать пример, поскольку он уже имеет НС

x <- head(airquality)

Это имеет две строки с NA в столбце Solar.R, чтобы удалить их, мы делаем следующее

x_no_NA <- x[complete.cases(x),]

Результирующий информационный фрейм x_no_NA будет иметь только полные строки без NA

Modified text is an extract of the original Stack Overflow Documentation

Лицензировано согласно CC BY-SA 3.0

Не связан с Stack Overflow

R Language
Очистка данных

Поиск…

Вступление

Удаление отсутствующих данных из вектора

Удаление неполных строк