Buscar..


Introducción

caret es un paquete R que ayuda en el procesamiento de datos necesarios para problemas de aprendizaje automático. Es sinónimo de clasificación y entrenamiento de regresión. Al crear modelos para un conjunto de datos real, hay algunas tareas que no son el algoritmo de aprendizaje real que deben realizarse, como limpiar los datos, tratar observaciones incompletas, validar nuestro modelo en un conjunto de pruebas y comparar diferentes modelos.

caret ayuda en estos escenarios, independientemente de los algoritmos de aprendizaje reales utilizados.

Preprocesamiento

El preprocesamiento en caret se realiza a través de la función preProcess() . Dado un objeto x tipo de marco de datos o matriz, preProcess() aplica transformaciones en los datos de entrenamiento que luego se pueden aplicar a los datos de prueba.

El corazón de la función preProcess() es el argumento del method . Las operaciones del método se aplican en este orden:

  1. Filtro de cero variación
  2. Filtro de varianza casi cero
  3. Box-Cox / Yeo-Johnson / transformación exponencial
  4. Centrado
  5. Escalada
  6. Distancia
  7. Imputación
  8. PCA
  9. ICA
  10. Signo espacial

A continuación, tomamos el conjunto de datos de mtcars y realizamos centrado, escalado y una transformación de signo espacial.

auto_index <- createDataPartition(mtcars$mpg, p = .8,
                                  list = FALSE,
                                  times = 1)

mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]

process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))

mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)


Modified text is an extract of the original Stack Overflow Documentation
Licenciado bajo CC BY-SA 3.0
No afiliado a Stack Overflow