Aller au contenu
Langage & Développement informatique

Spark Java – Développer des applications pour le Big Data

Cette formation de 21 heures permet aux développeurs Java de maîtriser le développement de traitements distribués avec Apache Spark. Les participants apprendront à manipuler RDD, DataFrames et SQL, tout en…

21h
Intermédiaire
Blended

Description de la formation

Jour 1 – Introduction à Spark et RDD en Java

  • Architecture Spark : cluster, driver, worker
  • Concepts de DAG, exécution distribuée
  • Manipulation des RDD (map, filter, reduce)
  • Création de traitements Spark en Java avec fonctions lambda

Jour 2 – DataFrames et Spark SQL

  • Création de DataFrames avec SparkSession
  • Opérations tabulaires (select, join, groupBy, aggregation)
  • SQL dans Spark avec Java
  • Plan d’exécution, cache, persist, partitionnement

Jour 3 – Intégration, projet et bonnes pratiques

  • Chargement de gros fichiers (CSV, JSON, Parquet)
  • Dataset<Row> vs RDD : cas d’usage
  • Mini-projet : traitement Spark Java complet
  • Bilan et perspectives (exécution sur cluster, Spark Streaming, etc.)

Objectifs pédagogiques

  • Développer un traitement distribué avec Spark en Java
  • Développer un traitement distribué avec Spark en Java
  • Manipuler RDD, DataFrames et SQL
  • Manipuler RDD, DataFrames et SQL
  • Optimiser les traitements Spark (cache, persist, partitionnement)
  • Optimiser les traitements Spark (cache, persist, partitionnement)
  • Structurer une application Spark Java efficace et réutilisable
  • Structurer une application Spark Java efficace et réutilisable

Programme détaillé

Module 1 Jour 1 – Introduction à Spark et RDD en Java
  • Architecture Spark : cluster, driver, worker
  • Concepts de DAG, exécution distribuée
  • Manipulation des RDD (map, filter, reduce)
  • Création de traitements Spark en Java avec fonctions lambda
Module 2 Jour 2 – DataFrames et Spark SQL
  • Création de DataFrames avec SparkSession
  • Opérations tabulaires (select, join, groupBy, aggregation)
  • SQL dans Spark avec Java
  • Plan d’exécution, cache, persist, partitionnement
Module 3 Jour 3 – Intégration, projet et bonnes pratiques
  • Chargement de gros fichiers (CSV, JSON, Parquet)
  • Dataset<Row> vs RDD : cas d’usage
  • Mini-projet : traitement Spark Java complet
  • Bilan et perspectives (exécution sur cluster, Spark Streaming, etc.)

Prérequis

  • Maîtrise de Java (POO, lambda, collections)
  • Connaissances de base en SQL et traitement de fichiers structurés

Public visé

  • Développeurs Java, data engineers, analystes techniques ou architectes souhaitant travailler sur le traitement de données volumineuses avec Spark

Modalités de la formation

  • ⏱ Durée : 21h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.