Buscar..


Introducción

La limpieza de los datos en R es fundamental para realizar cualquier análisis. cualquiera que sea la información que tenga, ya sea a partir de mediciones tomadas en el campo o extraídas de la web, es muy probable que tenga que remodelarla, transformarla o filtrarla para que sea adecuada para su análisis. En esta documentación, cubriremos los siguientes temas: - Eliminar observaciones con datos faltantes - Factorizar datos - Eliminar filas incompletas

Eliminar datos faltantes de un vector

Primero vamos a crear un vector llamado Vector1:

set.seed(123)
Vector1 <- rnorm(20)

Y añádele los datos que faltan:

set.seed(123)
Vector1[sample(1:length(Vector1), 5)] <- NA

Ahora podemos usar la función is.na para subcontratar el Vector

Vector1 <- Vector1[!is.na(Vector1)]

Ahora el vector resultante habrá eliminado las NA del Vector1 original

Eliminando filas incompletas

Puede haber ocasiones en las que tenga un marco de datos y desee eliminar todas las filas que puedan contener un valor de NA, ya que la función complete.cases es la mejor opción.

Usaremos las primeras 6 filas del conjunto de datos de calidad del aire para hacer un ejemplo, ya que ya tiene NA

x <- head(airquality)

Esto tiene dos filas con NA en la columna Solar.R, para eliminarlas hacemos lo siguiente

x_no_NA <- x[complete.cases(x),]

El marco de datos resultante x_no_NA solo tendrá filas completas sin NA



Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow