Langage & Développement informatique

Spark Python – Développer des applications pour le Big Data

Cette formation de 21 heures permet de comprendre et d’exploiter Spark en environnement Python (PySpark) pour traiter des données volumineuses. Elle couvre l’architecture distribuée de Spark, le traitement des DataFrames,…

21h

Avancé

Mixte

Description de la formation

Cette formation Spark Python – Développer des applications pour le Big Data s’adresse aux développeurs et data engineers souhaitant maîtriser les technologies de traitement massif de données. Sur 21 heures, vous apprendrez à construire des applications performantes avec Apache Spark et Python, exploiter les frameworks distribués et optimiser vos pipelines data en environnement production.

Le programme couvre l’architecture de Spark, la manipulation de DataFrames, le traitement en temps réel et l’optimisation des requêtes distribuées. Vous acquerrez les compétences essentielles pour traiter des volumes de données importants et déployer des solutions scalables.

Notre formation niveau avancé combine distanciel et présentiel pour un apprentissage flexible. ESIC, certifiée Qualiopi, propose un accompagnement individualisé tout au long de votre parcours. Cette formation est éligible CPF et ouverte aux financements OPCO et France Travail.

Rejoignez nos experts pour transformer vos compétences en Big Data et booster votre carrière technique.

Objectifs pédagogiques

Comprendre l’architecture de Spark et ses concepts fondamentaux
Manipuler des DataFrames PySpark pour le traitement de données distribuées
Appliquer des opérations de transformation, jointure, filtrage et agrégation
Optimiser les traitements Spark (plan d’exécution, cache, UDF) et structurer une application Big Data

Programme détaillé

Module 1 Jour 1 – Introduction à Spark et PySpark

Architecture Spark : cluster, exécuteurs, DAG, RDD vs DataFrame
Démarrer avec SparkSession, chargement de données (CSV, JSON)
Exploration de données : show, schema, select, filter

Module 2 Jour 2 – Transformations avancées et SQL

Fonctions Spark : withColumn, groupBy, join, agg
Gestion des types, conversions, gestion des null
Intégration avec SQL : createOrReplaceTempView, requêtes SQL
Export des résultats (CSV, parquet)

Module 3 Jour 3 – Optimisation & mini-projet

Plan d’exécution (explain), cache, persist
UDF (User Defined Functions)
Initiation à Spark MLlib (modèle simple de classification)
Mini-projet : traitement d’un corpus big data + restitution

Prérequis

Maîtrise de Python
Connaissances de pandas
Notions de SQL recommandées

Public visé

Développeurs Python
Data analysts
Ingénieurs data
Profils techniques en reconversion vers la data

Modalités de la formation

⏱ Durée : 21h
📍 Format : Mixte (présentiel + distanciel)
📊 Niveau d'entrée : Avancé
🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
🗓️ Délai d'accès : variable selon le mode de financement, généralement de 11 jours ouvrés à 1 mois après l'inscription. En savoir plus.
♿ Accessibilité : Chaque demande émanant d'une personne en situation de handicap fait l'objet d'une étude de faisabilité et d'adaptation. Contactez notre référent handicap.

🏆

Passage de la certification obligatoire

Cette formation se conclut par le passage d'une certification officielle, indispensable à la validation de votre parcours.

Certification(s) : TP – Assistant de vie aux familles

Équipe pédagogique

Nos formations sont conçues et animées par une équipe de formateurs experts, sélectionnés pour leur double compétence : une expertise métier acquise sur le terrain et une réelle expérience pédagogique. Le suivi de chaque apprenant est assuré par un référent pédagogique dédié.

Formateurs professionnels spécialistes de leur domaine, en veille permanente sur les évolutions du secteur
Référent pédagogique dédié, disponible tout au long du parcours
Contenus régulièrement actualisés et adaptés au niveau de chaque participant
Référent handicap pour l'accueil et l'adaptation des personnes en situation de handicap

Ressources pédagogiques

Support de cours PDF
Scripts .py ou notebooks PySpark
Jeux de données fournis (CSV volumineux)
Documentation d’installation locale / cloud

Suivi de l'exécution et évaluation

Exercices corrigés à chaque module
Mini-projet individuel ou binôme
Feuille de présence
Questionnaire de satisfaction

Accessibilité

Nous accordons une attention particulière à l'accueil des personnes en situation de handicap. Si vous êtes concerné(e) et souhaitez suivre cette formation, nous vous invitons à nous contacter dès que possible. Ensemble, nous étudierons vos besoins spécifiques et mettrons en place les adaptations nécessaires pour garantir votre accès à la formation dans les meilleures conditions.

Fiche mise à jour le 7 juillet 2026.

Spark Python – Développer des applications pour le Big Data

Description de la formation

Objectifs pédagogiques

Programme détaillé

Prérequis

Public visé

Modalités de la formation

Équipe pédagogique

Ressources pédagogiques

Suivi de l'exécution et évaluation

Accessibilité

Cette formation prépare à

TP – Assistant de vie aux familles

Formations similaires

Java – Tests et qualité du code

Data Analytics avec Python

Python – Data Science : manipuler et visualiser les données

Les apprenants ont aussi consulté

Préparation à la certification LILATE Test d’aptitude à travailler en espagnol (RS7316)

Accompagnement VAE

Compétences numériques essentielles