R Language
Datos de limpieza
Buscar..
Introducción
La limpieza de los datos en R es fundamental para realizar cualquier análisis. cualquiera que sea la información que tenga, ya sea a partir de mediciones tomadas en el campo o extraídas de la web, es muy probable que tenga que remodelarla, transformarla o filtrarla para que sea adecuada para su análisis. En esta documentación, cubriremos los siguientes temas: - Eliminar observaciones con datos faltantes - Factorizar datos - Eliminar filas incompletas
Eliminar datos faltantes de un vector
Primero vamos a crear un vector llamado Vector1:
set.seed(123)
Vector1 <- rnorm(20)
Y añádele los datos que faltan:
set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA
Ahora podemos usar la función is.na para subcontratar el Vector
Vector1 <- Vector1[!is.na(Vector1)]
Ahora el vector resultante habrá eliminado las NA del Vector1 original
Eliminando filas incompletas
Puede haber ocasiones en las que tenga un marco de datos y desee eliminar todas las filas que puedan contener un valor de NA, ya que la función complete.cases es la mejor opción.
Usaremos las primeras 6 filas del conjunto de datos de calidad del aire para hacer un ejemplo, ya que ya tiene NA
x <- head(airquality)
Esto tiene dos filas con NA en la columna Solar.R, para eliminarlas hacemos lo siguiente
x_no_NA <- x[complete.cases(x),]
El marco de datos resultante x_no_NA solo tendrá filas completas sin NA
Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow