Aller au contenu
Langage & Développement informatique

Spark Python – Développer des applications pour le Big Data

Cette formation de 21 heures permet de comprendre et d’exploiter Spark en environnement Python (PySpark) pour traiter des données volumineuses. Elle couvre l’architecture distribuée de Spark, le traitement des DataFrames,…

21h
Avancé
Blended

Description de la formation

Jour 1 – Introduction à Spark et PySpark

  • Architecture Spark : cluster, exécuteurs, DAG, RDD vs DataFrame
  • Démarrer avec SparkSession, chargement de données (CSV, JSON)
  • Exploration de données : show, schema, select, filter

Jour 2 – Transformations avancées et SQL

  • Fonctions Spark : withColumn, groupBy, join, agg
  • Gestion des types, conversions, gestion des null
  • Intégration avec SQL : createOrReplaceTempView, requêtes SQL
  • Export des résultats (CSV, parquet)

Jour 3 – Optimisation & mini-projet

  • Plan d’exécution (explain), cache, persist
  • UDF (User Defined Functions)
  • Initiation à Spark MLlib (modèle simple de classification)
  • Mini-projet : traitement d’un corpus big data + restitution

Objectifs pédagogiques

  • Comprendre l’architecture de Spark et ses concepts fondamentaux
  • Manipuler des DataFrames PySpark pour le traitement de données distribuées
  • Appliquer des opérations de transformation, jointure, filtrage et agrégation
  • Optimiser les traitements Spark (plan d’exécution, cache, UDF) et structurer une application Big Data

Programme détaillé

Module 1 Jour 1 – Introduction à Spark et PySpark
  • Architecture Spark : cluster, exécuteurs, DAG, RDD vs DataFrame
  • Démarrer avec SparkSession, chargement de données (CSV, JSON)
  • Exploration de données : show, schema, select, filter
Module 2 Jour 2 – Transformations avancées et SQL
  • Fonctions Spark : withColumn, groupBy, join, agg
  • Gestion des types, conversions, gestion des null
  • Intégration avec SQL : createOrReplaceTempView, requêtes SQL
  • Export des résultats (CSV, parquet)
Module 3 Jour 3 – Optimisation & mini-projet
  • Plan d’exécution (explain), cache, persist
  • UDF (User Defined Functions)
  • Initiation à Spark MLlib (modèle simple de classification)
  • Mini-projet : traitement d’un corpus big data + restitution

Prérequis

  • Maîtrise de Python
  • Connaissances de pandas
  • Notions de SQL recommandées

Public visé

  • Développeurs Python
  • Data analysts
  • Ingénieurs data
  • Profils techniques en reconversion vers la data

Modalités de la formation

  • ⏱ Durée : 21h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Avancé
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.