Recherche…


Introduction

caret est un package R qui facilite le traitement des données pour les problèmes d'apprentissage automatique. Il est synonyme de formation à la classification et à la régression. Lors de la construction de modèles pour un jeu de données réel, certaines tâches autres que l'algorithme d'apprentissage réel doivent être exécutées, telles que le nettoyage des données, le traitement d'observations incomplètes, la validation de notre modèle sur un ensemble de tests et la comparaison de différents modèles.

caret aide dans ces scénarios, indépendamment des algorithmes d'apprentissage réels utilisés.

Prétraitement

Le prétraitement dans caret se fait via la fonction preProcess() . Étant donné un objet de type matrice ou preProcess() données x , preProcess() applique des transformations sur les données d'apprentissage qui peuvent ensuite être appliquées aux données de test.

Le cœur de la fonction preProcess() est l’argument de la method . Les opérations de méthode sont appliquées dans cet ordre:

  1. Filtre à variance nulle
  2. Filtre de variance proche de zéro
  3. Box-Cox / Yeo-Johnson / Transformation exponentielle
  4. Centrage
  5. Mise à l'échelle
  6. Gamme
  7. Imputation
  8. PCA
  9. I CA
  10. Signe spatial

Ci-dessous, nous prenons l'ensemble de données mtcars et effectuons le centrage, la mise à l'échelle et une transformation de signe spatiale.

auto_index <- createDataPartition(mtcars$mpg, p = .8,
                                  list = FALSE,
                                  times = 1)

mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]

process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))

mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)


Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow