R Language
caret
Recherche…
Introduction
caret
est un package R qui facilite le traitement des données pour les problèmes d'apprentissage automatique. Il est synonyme de formation à la classification et à la régression. Lors de la construction de modèles pour un jeu de données réel, certaines tâches autres que l'algorithme d'apprentissage réel doivent être exécutées, telles que le nettoyage des données, le traitement d'observations incomplètes, la validation de notre modèle sur un ensemble de tests et la comparaison de différents modèles.
caret
aide dans ces scénarios, indépendamment des algorithmes d'apprentissage réels utilisés.
Prétraitement
Le prétraitement dans caret se fait via la fonction preProcess()
. Étant donné un objet de type matrice ou preProcess()
données x
, preProcess()
applique des transformations sur les données d'apprentissage qui peuvent ensuite être appliquées aux données de test.
Le cœur de la fonction preProcess()
est l’argument de la method
. Les opérations de méthode sont appliquées dans cet ordre:
- Filtre à variance nulle
- Filtre de variance proche de zéro
- Box-Cox / Yeo-Johnson / Transformation exponentielle
- Centrage
- Mise à l'échelle
- Gamme
- Imputation
- PCA
- I CA
- Signe spatial
Ci-dessous, nous prenons l'ensemble de données mtcars et effectuons le centrage, la mise à l'échelle et une transformation de signe spatiale.
auto_index <- createDataPartition(mtcars$mpg, p = .8,
list = FALSE,
times = 1)
mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]
process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))
mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)