R Language
знак вставки
Поиск…
Вступление
caret
- это пакет R, который помогает в обработке данных, необходимой для проблем машинного обучения. Это означает классификацию и регрессионную подготовку. При создании моделей для реального набора данных существуют некоторые задачи, отличные от реального алгоритма обучения, который необходимо выполнить, например, очистка данных, обработка неполных наблюдений, проверка нашей модели на тестовом наборе и сравнение разных моделей.
caret
помогает в этих сценариях, независимо от используемых алгоритмов обучения.
предварительная обработка
Предварительная обработка в карете выполняется с помощью функции preProcess()
. Для объекта x
типа матрицы или типа данных preProcess()
применяет преобразования к данным обучения, которые затем могут применяться к данным тестирования.
Сердцем функции preProcess()
является аргумент method
. Операции метода применяются в следующем порядке:
- Фильтр нулевой дисперсии
- Фильтр дисперсии с нулевым значением
- Box-Cox / Yeo-Johnson / экспоненциальная трансформация
- Центрирование
- пересчет
- Спектр
- вменение в вину
- PCA
- ICA
- Пространственный знак
Ниже мы берем набор данных mtcars и выполняем центрирование, масштабирование и пространственное преобразование знака.
auto_index <- createDataPartition(mtcars$mpg, p = .8,
list = FALSE,
times = 1)
mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]
process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))
mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)