R Language
segno di omissione
Ricerca…
introduzione
caret
è un pacchetto R che aiuta l'elaborazione dei dati necessari per i problemi di apprendimento automatico. Rappresenta l'allenamento per la classificazione e la regressione. Quando si creano modelli per un set di dati reale, ci sono alcune attività diverse dall'effettivo algoritmo di apprendimento che devono essere eseguite, come la pulizia dei dati, il trattamento di osservazioni incomplete, la convalida del nostro modello su un set di test e il confronto di diversi modelli.
caret
aiuta in questi scenari, indipendentemente dagli effettivi algoritmi di apprendimento utilizzati.
Pre-elaborazione
La pre-elaborazione in caret viene eseguita tramite la funzione preProcess()
. Dato un oggetto di tipo matrice o frame dati x
, preProcess()
applica le trasformazioni sui dati di addestramento che possono quindi essere applicate ai dati di test.
Il cuore della funzione preProcess()
è l'argomento del method
. Le operazioni sui metodi vengono applicate in questo ordine:
- Filtro a varianza zero
- Filtro di varianza quasi zero
- Trasformazione Box-Cox / Yeo-Johnson / esponenziale
- Centraggio
- scalata
- Gamma
- Imputazione
- PCA
- ICA
- Segno spaziale
Di seguito, prendiamo il set di dati mtcars ed eseguiamo il centraggio, il ridimensionamento e una trasformazione del segno spaziale.
auto_index <- createDataPartition(mtcars$mpg, p = .8,
list = FALSE,
times = 1)
mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]
process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))
mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)