Sök…


Introduktion

caret är ett R-paket som hjälper till vid databehandling som behövs för maskininlärningsproblem. Det står för klassificering och regressionsträning. När man bygger modeller för ett riktigt datasats finns det några andra uppgifter än den faktiska inlärningsalgoritmen som måste utföras, till exempel att rengöra data, hantera ofullständiga observationer, validera vår modell på en testuppsättning och jämföra olika modeller.

caret hjälper till i dessa scenarier, oberoende av de faktiska inlärningsalgoritmerna som används.

förbehandling

Förbehandling i caret görs genom preProcess() -funktionen. Med tanke på ett objekt av matris eller preProcess() x preProcess() transformationer på träningsdata som sedan kan tillämpas på testdata.

Hjärtat i preProcess() funktion är method argumentet. Metodåtgärder tillämpas i denna ordning:

  1. Nollvariansfilter
  2. Variansfilter nära noll
  3. Box-Cox / Yeo-Johnson / exponentiell transformation
  4. centre~~POS=TRUNC
  5. skalning
  6. Räckvidd
  7. imputering
  8. PCA
  9. ICA
  10. Rymlig tecken

Nedan tar vi mtcars-datauppsättningen och utför centrering, skalning och en rumslig teckenomvandling.

auto_index <- createDataPartition(mtcars$mpg, p = .8,
                                  list = FALSE,
                                  times = 1)

mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]

process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))

mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)


Modified text is an extract of the original Stack Overflow Documentation
Licensierat under CC BY-SA 3.0
Inte anslutet till Stack Overflow