R Language
markör
Sök…
Introduktion
caret
är ett R-paket som hjälper till vid databehandling som behövs för maskininlärningsproblem. Det står för klassificering och regressionsträning. När man bygger modeller för ett riktigt datasats finns det några andra uppgifter än den faktiska inlärningsalgoritmen som måste utföras, till exempel att rengöra data, hantera ofullständiga observationer, validera vår modell på en testuppsättning och jämföra olika modeller.
caret
hjälper till i dessa scenarier, oberoende av de faktiska inlärningsalgoritmerna som används.
förbehandling
Förbehandling i caret görs genom preProcess()
-funktionen. Med tanke på ett objekt av matris eller preProcess()
x
preProcess()
transformationer på träningsdata som sedan kan tillämpas på testdata.
Hjärtat i preProcess()
funktion är method
argumentet. Metodåtgärder tillämpas i denna ordning:
- Nollvariansfilter
- Variansfilter nära noll
- Box-Cox / Yeo-Johnson / exponentiell transformation
- centre~~POS=TRUNC
- skalning
- Räckvidd
- imputering
- PCA
- ICA
- Rymlig tecken
Nedan tar vi mtcars-datauppsättningen och utför centrering, skalning och en rumslig teckenomvandling.
auto_index <- createDataPartition(mtcars$mpg, p = .8,
list = FALSE,
times = 1)
mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]
process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))
mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)