Szukaj…


Wprowadzenie

caret to pakiet R, który pomaga w przetwarzaniu danych potrzebnych w przypadku problemów z uczeniem maszynowym. Oznacza klasyfikację i trening regresji. Podczas budowania modeli dla prawdziwego zestawu danych należy wykonać pewne zadania inne niż algorytm uczenia się, takie jak czyszczenie danych, radzenie sobie z niepełnymi obserwacjami, sprawdzanie poprawności naszego modelu na zestawie testowym i porównywanie różnych modeli.

caret pomaga w tych scenariuszach, niezależnie od faktycznie używanych algorytmów uczenia się.

Przetwarzanie wstępne

Przetwarzanie wstępne w preProcess() odbywa się za pomocą funkcji preProcess() . Biorąc pod uwagę obiekt typu macierz lub ramka danych x , preProcess() stosuje przekształcenia danych szkoleniowych, które można następnie zastosować do danych testowych.

Sercem funkcji preProcess() jest argument method . Operacje metod są stosowane w następującej kolejności:

  1. Filtr zerowej wariancji
  2. Filtr wariancji prawie zerowej
  3. Transformacja Boxa-Coxa / Yeo-Johnsona / wykładnicza
  4. Krążyna
  5. skalowanie
  6. Zasięg
  7. Przypisanie
  8. PCA
  9. ICA
  10. Znak przestrzenny

Poniżej bierzemy zestaw danych mtcars i wykonujemy centrowanie, skalowanie i transformację znaku przestrzennego.

auto_index <- createDataPartition(mtcars$mpg, p = .8,
                                  list = FALSE,
                                  times = 1)

mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]

process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))

mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)


Modified text is an extract of the original Stack Overflow Documentation
Licencjonowany na podstawie CC BY-SA 3.0
Nie związany z Stack Overflow