Recherche…


Le mode Spark Client et Cluster expliqué

Essayons de regarder les différences entre le mode client et le mode cluster de Spark.

Client : lors de l'exécution de Spark en mode client, le programme SparkContext et Driver s'exécute en externe sur le cluster; par exemple, à partir de votre ordinateur portable. Le mode local est uniquement utilisé lorsque vous ne souhaitez pas utiliser un cluster et que vous souhaitez tout exécuter sur un seul ordinateur. Ainsi, l'application pilote et l'application Spark sont toutes deux sur le même ordinateur que l'utilisateur. Le pilote s'exécute sur un serveur dédié (nœud maître) dans un processus dédié. Cela signifie qu'il dispose de toutes les ressources disponibles pour exécuter le travail. Étant donné que le nœud maître possède des ressources dédiées, vous n'avez pas besoin de dépenser des ressources de travail pour le programme du pilote. Si le processus du pilote meurt, vous avez besoin d'un système de surveillance externe pour réinitialiser son exécution.

Cluster: le pilote s'exécute sur l'un des noeuds Worker du cluster. Il s'exécute en tant que processus autonome dédié dans Worker. Lorsque vous travaillez en mode cluster, tous les fichiers JAR liés à l'exécution de votre application doivent être accessibles au public pour tous les utilisateurs. Cela signifie que vous pouvez les placer manuellement dans un emplacement partagé ou dans un dossier pour chacun des travailleurs. Chaque application dispose de ses propres processus d'exécution, qui restent en place pendant toute la durée de l'application et exécutent des tâches dans plusieurs threads. Cela présente l'avantage d'isoler les applications les unes des autres, tant du côté de la planification (chaque pilote planifie ses propres tâches) que du côté de l'exécuteur (les tâches provenant de différentes applications s'exécutent dans des machines virtuelles Java différentes)

Types de gestionnaire de cluster

Apache Mesos - un gestionnaire de cluster général qui peut également exécuter Hadoop MapReduce et les applications de service. Hadoop YARN - le gestionnaire de ressources dans Hadoop.
Kubernetes-infrastructure-centrée sur les conteneurs est encore expérimentale.



Modified text is an extract of the original Stack Overflow Documentation
Sous licence CC BY-SA 3.0
Non affilié à Stack Overflow