Ricerca…


introduzione

caret è un pacchetto R che aiuta l'elaborazione dei dati necessari per i problemi di apprendimento automatico. Rappresenta l'allenamento per la classificazione e la regressione. Quando si creano modelli per un set di dati reale, ci sono alcune attività diverse dall'effettivo algoritmo di apprendimento che devono essere eseguite, come la pulizia dei dati, il trattamento di osservazioni incomplete, la convalida del nostro modello su un set di test e il confronto di diversi modelli.

caret aiuta in questi scenari, indipendentemente dagli effettivi algoritmi di apprendimento utilizzati.

Pre-elaborazione

La pre-elaborazione in caret viene eseguita tramite la funzione preProcess() . Dato un oggetto di tipo matrice o frame dati x , preProcess() applica le trasformazioni sui dati di addestramento che possono quindi essere applicate ai dati di test.

Il cuore della funzione preProcess() è l'argomento del method . Le operazioni sui metodi vengono applicate in questo ordine:

  1. Filtro a varianza zero
  2. Filtro di varianza quasi zero
  3. Trasformazione Box-Cox / Yeo-Johnson / esponenziale
  4. Centraggio
  5. scalata
  6. Gamma
  7. Imputazione
  8. PCA
  9. ICA
  10. Segno spaziale

Di seguito, prendiamo il set di dati mtcars ed eseguiamo il centraggio, il ridimensionamento e una trasformazione del segno spaziale.

auto_index <- createDataPartition(mtcars$mpg, p = .8,
                                  list = FALSE,
                                  times = 1)

mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]

process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))

mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)


Modified text is an extract of the original Stack Overflow Documentation
Autorizzato sotto CC BY-SA 3.0
Non affiliato con Stack Overflow