R Language
キャレット
サーチ…
前書き
caret
は機械学習の問題に必要なデータ処理を支援するRパッケージです。分類と回帰の訓練の略です。実際のデータセットのモデルを構築する際には、データの消去、不完全な観測の処理、テストセット上のモデルの検証、異なるモデルの比較など、実行する必要がある実際の学習アルゴリズム以外のタスクがいくつかあります。
caret
は、使用される実際の学習アルゴリズムとは独立して、これらのシナリオで役立ちます。
前処理
キャレットでの前処理は、 preProcess()
関数によって行われます。与えられた行列またはデータフレームタイプのオブジェクトx
、 preProcess()
がトレーニングデータに変換を適用し、テストデータに適用することができます。
preProcess()
関数の中心は、 method
引数です。メソッド操作は次の順序で適用されます。
- ゼロ分散フィルタ
- ゼロに近い分散フィルタ
- Box-Cox / Yeo-Johnson /指数変換
- センタリング
- スケーリング
- 範囲
- 転用
- PCA
- ICA
- 空間記号
以下では、mtcarsデータセットを取得し、センタリング、スケーリング、および空間符号変換を実行します。
auto_index <- createDataPartition(mtcars$mpg, p = .8,
list = FALSE,
times = 1)
mt_train <- mtcars[auto_index,]
mt_test <- mtcars[-auto_index,]
process_mtcars <- preProcess(mt_train, method = c("center","scale","spatialSign"))
mtcars_train_transf <- predict(process_mtcars, mt_train)
mtcars_test_tranf <- predict(process_mtcars,mt_test)
Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow