R Language
Очистка данных
Поиск…
Вступление
Очистка данных в R имеет первостепенное значение для проведения любого анализа. любые данные, которые у вас есть, будь то измерения, сделанные в поле или очищенные от Интернета, наиболее вероятно, что вам придется изменить его, преобразовать или фильтровать, чтобы он был подходящим для вашего анализа. В этой документации мы рассмотрим следующие темы: - Удаление наблюдений с отсутствующими данными - Факторизация данных - Удаление неполных строк
Удаление отсутствующих данных из вектора
Сначала создадим вектор Vector1:
set.seed(123)
Vector1 <- rnorm(20)
И добавьте к нему недостающие данные:
set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA
Теперь мы можем использовать функцию is.na для подмножества вектора
Vector1 <- Vector1[!is.na(Vector1)]
Теперь полученный вектор удалит NAs исходного Vector1
Удаление неполных строк
Могут быть моменты, когда у вас есть кадр данных, и вы хотите удалить все строки, которые могут содержать значение NA, поскольку функция complete.cases является наилучшим вариантом.
Мы будем использовать первые 6 строк набора данных для обеспечения качества, чтобы сделать пример, поскольку он уже имеет НС
x <- head(airquality)
Это имеет две строки с NA в столбце Solar.R, чтобы удалить их, мы делаем следующее
x_no_NA <- x[complete.cases(x),]
Результирующий информационный фрейм x_no_NA будет иметь только полные строки без NA
Modified text is an extract of the original Stack Overflow Documentation
Лицензировано согласно CC BY-SA 3.0
Не связан с Stack Overflow