Data & Business Intelligence

Développer des traitements Big Data avec Apache Spark (Java & Python)

Développez des applications Big Data performantes avec Apache Spark (Java ou Python) pour traiter, transformer et analyser de grands volumes de données en temps réel ou batch.

21h

Intermédiaire

Mixte

Description de la formation

Introduction à Spark et aux architectures Big Data

Comparatif Spark vs Hadoop (MapReduce)
Versions disponibles (Java, Scala, Python) – introduction à PySpark
Cas d’usage typiques : log, IoT, ETL, IA, BI, temps réel

Programmation avec Spark RDD

Rappels sur les concepts de résilience, partitionnement, persistance
Manipulation des RDD (transformations, actions)
Broadcast, Accumulateurs, gestion de la mémoire
Travaux pratiques en Java (et introduction à équivalent PySpark)

Spark SQL et DataFrames

Schéma, Datasets, DataFrames : différences et usages
Connexion à des sources structurées : CSV, JSON, JDBC, Hive
Écriture de requêtes SQL sur DataFrames
Optimisation avec Catalyst & Tungsten

Déploiement sur cluster

Architecture Spark : Standalone, YARN, Mesos
Installation mono-node & multi-node (simulation Docker possible)
spark-submit, gestion des dépendances, logs
Monitoring avec Spark UI

Traitement en temps réel avec Spark Streaming

DStreams & micro-batch
Connexion à Kafka, sockets, fichiers live
Fenêtrage, état, logique métier temps réel
Comparatif avec Structured Streaming (v2)

Machine Learning avec MLlib

Présentation des algorithmes disponibles
Pipelines de transformation, évaluation, tuning
Régression, classification, clustering
Atelier : mini-projet de modélisation ML sur Spark

(Optionnel) PySpark

API Python pour Spark
Similitudes et différences avec l’API Java
Atelier : transformation et agrégation de données en PySpark

Objectifs pédagogiques

Comprendre les principes de traitement distribué avec Apache Spark
Développer des applications batch et temps réel avec Spark Core et Spark Streaming
Manipuler des données structurées avec Spark SQL
Découvrir Spark MLlib pour les traitements analytiques avancés
Mettre en œuvre un cluster Spark et déployer des jobs

Programme détaillé

Module 1 Introduction à Spark et aux architectures Big Data

Comparatif Spark vs Hadoop (MapReduce)
Versions disponibles (Java, Scala, Python) – introduction à PySpark
Cas d’usage typiques : log, IoT, ETL, IA, BI, temps réel

Module 2 Programmation avec Spark RDD

Rappels sur les concepts de résilience, partitionnement, persistance
Manipulation des RDD (transformations, actions)
Broadcast, Accumulateurs, gestion de la mémoire
Travaux pratiques en Java (et introduction à équivalent PySpark)

Module 3 Spark SQL et DataFrames

Schéma, Datasets, DataFrames : différences et usages
Connexion à des sources structurées : CSV, JSON, JDBC, Hive
Écriture de requêtes SQL sur DataFrames
Optimisation avec Catalyst & Tungsten

Module 4 Déploiement sur cluster

Architecture Spark : Standalone, YARN, Mesos
Installation mono-node & multi-node (simulation Docker possible)
spark-submit, gestion des dépendances, logs
Monitoring avec Spark UI

Module 5 Traitement en temps réel avec Spark Streaming

DStreams & micro-batch
Connexion à Kafka, sockets, fichiers live
Fenêtrage, état, logique métier temps réel
Comparatif avec Structured Streaming (v2)

Module 6 Machine Learning avec MLlib

Présentation des algorithmes disponibles
Pipelines de transformation, évaluation, tuning
Régression, classification, clustering
Atelier : mini-projet de modélisation ML sur Spark

Module 7 (Optionnel) PySpark

API Python pour Spark
Similitudes et différences avec l’API Java
Atelier : transformation et agrégation de données en PySpark

Prérequis

Bonne maîtrise du langage Java (ou Python si volet PySpark activé)
Notions de Big Data et de bases de données

Public visé

Développeurs, data engineers, architectes techniques, chefs de projets Big Data

Modalités de la formation

⏱ Durée : 21h
📍 Format : Mixte (présentiel + distanciel)
📊 Niveau d'entrée : Intermédiaire
🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
🗓️ Délai d'accès : variable selon le mode de financement, généralement de 11 jours ouvrés à 1 mois après l'inscription. En savoir plus.
♿ Accessibilité : Chaque demande émanant d'une personne en situation de handicap fait l'objet d'une étude de faisabilité et d'adaptation. Contactez notre référent handicap.

🏆

Passage de la certification obligatoire

Cette formation se conclut par le passage d'une certification officielle, indispensable à la validation de votre parcours.

Certification(s) : TP – Assistant de vie aux familles

Équipe pédagogique

Nos formations sont conçues et animées par une équipe de formateurs experts, sélectionnés pour leur double compétence : une expertise métier acquise sur le terrain et une réelle expérience pédagogique. Le suivi de chaque apprenant est assuré par un référent pédagogique dédié.

Formateurs professionnels spécialistes de leur domaine, en veille permanente sur les évolutions du secteur
Référent pédagogique dédié, disponible tout au long du parcours
Contenus régulièrement actualisés et adaptés au niveau de chaque participant
Référent handicap pour l'accueil et l'adaptation des personnes en situation de handicap

Ressources pédagogiques

Apports théoriques et cas pratiques
Utilisation d’environnements Spark simulés (local, cloud, Docker)
Code partagé avec corrections et retours en direct
Mini-projets fil rouge

Suivi de l'exécution et évaluation

Feuilles de présence.
Questionnaire de positionnement
Évaluations intermédiaires
Formulaires d'évaluation de la formation.
Certificat de réalisation de l’action de formation.
Projet final évalué avec soutenance

Accessibilité

Les personnes atteintes de handicap souhaitant suivre cette formation sont invitées à nous contacter directement, afin d’étudier ensemble les possibilités de suivre la formation.

Fiche mise à jour le 7 juillet 2026.

Développer des traitements Big Data avec Apache Spark (Java & Python)

Description de la formation

Introduction à Spark et aux architectures Big Data

Programmation avec Spark RDD

Spark SQL et DataFrames

Déploiement sur cluster

Traitement en temps réel avec Spark Streaming

Machine Learning avec MLlib

(Optionnel) PySpark

Objectifs pédagogiques

Programme détaillé

Prérequis

Public visé

Modalités de la formation

Équipe pédagogique

Ressources pédagogiques

Suivi de l'exécution et évaluation

Accessibilité

Cette formation prépare à

TP – Assistant de vie aux familles

Formations similaires

Bases de données et langage SQL pour non-informaticiens

Développer en PL/SQL – Oracle

Conception et modélisation de bases de données relationnelles

Les apprenants ont aussi consulté

Accompagner la personne en situation de handicap vivant à domicile CCS – BC04

TP – Formateur professionnel d’adultes

Compétences numériques essentielles