Mise en œuvre des traitements Big Data avec Spark

Vous trouverez ci-dessous le programme détaillé de la formation "Mise en oeuvre des traitements Big Data avec Spark" . Cette formation de 3 jours vous permet de comprendre et mettre en oeuvre le développement d’une application avec Spark.

En résumé

Catégorie :
Technologie
Durée :
3 jours (21h)
Ref :
B-D-AS V1.1 du 30/07/2024
Prix :
1875€ HT
Publics :
Développeurs Backend et Architectes SI.
Pré-requis :

Connaissances sur Python.

Prochaines sessions :
16/4/2025

Programme de la formation

Objectifs pédagogiques

  • Développer une application s’appuyant sur Spark
  • Connaître les concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML

Programme détaillé

Présentation de Spark

  • Spark vs MapReduce
  • Le modèle in-memory
  • Composants : Jobs, Stages, Tasks
  • Les différentes interfaces : API Python, shell…
  • Atelier : Installation de l’environnement de développement et manipulation Spark

Objectif opérationnel : Maîtriser l’installation de l’environnement pour Spark

Moyen d’évaluation : QCM

Resilient Distributed Datasets

  • Principe des DAG
  • Les transformations : Filter, map, reduce, …
  • Les actions
  • Cache et persistance
  • Atelier : Effectuer des statistiques sur des données météorologiques

Objectif opérationnel : Comprendre les RDD sur Spark

Moyen d’évaluation : QCM

Dataframes

  • Les requêtes
  • Les formats
  • Spark SQL
  • Atelier : Observer et optimiser l’exécution de l’analyse de texte

Objectif opérationnel : Optimiser les RDD avec les dataframes

Moyen d’évaluation : QCM

Application : Exécution et debug

  • Structure d’une application
  • Exécuter une application
  • WebUI
  • Optimisation
  • Atelier : Observer et optimiser l’exécution de l’analyse de textes

Objectif opérationnel : Maîtriser d’exécution d’une application Spark

Moyen d’évaluation : QCM

Streaming

  • Présentation de DStream
  • Découverte de Sqoop
  • Utilisation de Kafka
  • Atelier : Exploiter des données via sqoop en temps réel

Objectif opérationnel : Comprendre le traitement en temps réel des données avec Spark

Moyen d’évaluation : QCM

SparkML

  • Présentation de ML et MLlib
  • Composants : Estimators, Transformers, Evaluators
  • Pipeline
  • Utilisation de Kafka
  • Atelier : Prédire la race d’un chien présent dans une image

Objectif opérationnel : Appréhender les problématiques du machine learning avec SparkML

Moyen d’évaluation : QCM

Moyen d'évaluation final : QCM d'évaluation des connaissances

Informations pratiques

  • THÉORIE : 40%
  • PRATIQUE : 60%
  • LIEUX : CENTRE DE NANTES, CLASSE A DISTANCE, DANS VOS LOCAUX

Votre formateur

Consultant et formateur. Ingénieur développeur depuis 5 ans, notre formateur intervient durant tout le processus du développement d’applications.

Personnes en situation de handicap
Nos formations sont accessibles aux personnes en situation de handicap. Afin de nous permettre d’organiser le déroulement de la formation dans les meilleures conditions possibles, contactez-nous. Un entretien avec notre référent.e handicap pourra être programmé afin d’identifier les besoins et aménagements nécessaires.

Progamme et catalogue peuvent être envoyés sur simple demande

Demander un devis

Dates des prochaines sessions

Session garantie à partir de 2 personnes.

April

Du
16.4.25
au
19.4.25
Centre de Nantes / Classe à Distance / Dans vos locaux