R Language
signo de intercalación
Buscar..
Introducción
caret
es un paquete R que ayuda en el procesamiento de datos necesarios para problemas de aprendizaje automático. Es sinónimo de clasificación y entrenamiento de regresión. Al crear modelos para un conjunto de datos real, hay algunas tareas que no son el algoritmo de aprendizaje real que deben realizarse, como limpiar los datos, tratar observaciones incompletas, validar nuestro modelo en un conjunto de pruebas y comparar diferentes modelos.
caret
ayuda en estos escenarios, independientemente de los algoritmos de aprendizaje reales utilizados.
Preprocesamiento
El preprocesamiento en caret se realiza a través de la función preProcess()
. Dado un objeto x
tipo de marco de datos o matriz, preProcess()
aplica transformaciones en los datos de entrenamiento que luego se pueden aplicar a los datos de prueba.
El corazón de la función preProcess()
es el argumento del method
. Las operaciones del método se aplican en este orden:
- Filtro de cero variación
- Filtro de varianza casi cero
- Box-Cox / Yeo-Johnson / transformación exponencial
- Centrado
- Escalada
- Distancia
- Imputación
- PCA
- ICA
- Signo espacial
A continuación, tomamos el conjunto de datos de mtcars y realizamos centrado, escalado y una transformación de signo espacial.
auto_index <- createDataPartition(mtcars$mpg, p = .8,
list = FALSE,
times = 1)
mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]
process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))
mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)