apache-spark
Миграция от Spark 1.6 до Spark 2.0
Поиск…
Вступление
Spark 2.0 был выпущен и содержит множество улучшений и новых функций. Если вы используете Spark 1.6, и теперь вы хотите обновить приложение для использования Spark 2.0, вы должны учитывать некоторые изменения в API. Ниже приведены некоторые изменения в коде, который необходимо выполнить.
Обновить файл build.sbt
Обновить build.sbt с помощью:
scalaVersion := "2.11.8" // Make sure to have installed Scala 11
sparkVersion := "2.0.0" // Make sure to have installed Spark 2.0
Обратите внимание, что при компиляции с sbt package
теперь будет создан sbt package
.jar
в target/scala-2.11/
, а также имя .jar
также будет изменено, поэтому необходимо обновить команду spark-submit
.
Обновить библиотеки ML Vector
ML Transformers
теперь генерирует org.apache.spark.ml.linalg.VectorUDT
вместо org.apache.spark.mllib.linalg.VectorUDT
.
Они также отображаются локально в подклассы org.apache.spark.ml.linalg.Vector
. Они несовместимы со старым API MLLib, который движется к устареванию в Spark 2.0.0.
//import org.apache.spark.mllib.linalg.{Vector, Vectors} // Depreciated in Spark 2.0
import org.apache.spark.ml.linalg.Vector // Use instead