Aller au contenu
Langage & Développement informatique

Hadoop – Développer des applications pour le Big Data

Cette formation de 28 heures permet de comprendre l’architecture Hadoop et de développer des applications pour le traitement distribué de données massives. Les participants manipulent HDFS, conçoivent des traitements MapReduce,…

28h
Intermédiaire
Blended

Description de la formation

Jour 1 – Architecture Hadoop et HDFS

  • Introduction au Big Data
  • Fonctionnement du cluster Hadoop
  • Principe et structure de HDFS
  • Chargement de données, commandes HDFS

Jour 2 – Développement MapReduce

  • Comprendre MapReduce (Mapper, Reducer, Combiner)
  • Implémentation Java et Hadoop Streaming (Python)
  • Tests de performances (partitions, shuffle)
  • TP : traitement de fichiers volumineux

Jour 3 – Hive et Pig

  • Hive : SQL sur HDFS, DDL, DML, UDF
  • Pig : langage de transformation déclaratif
  • Comparaison avec MapReduce classique
  • TP : requêtes sur jeux de données textuels

Jour 4 – Projet et cas concrets

  • Pipeline complet (stockage, traitement, analyse)
  • Traitement de logs, fichiers CSV, JSON
  • Audit du flux et mise en qualité
  • Perspectives vers Spark, HBase, YARN

Objectifs pédagogiques

  • Comprendre le fonctionnement du système de fichiers HDFS
  • Développer des traitements MapReduce (Java ou Python)
  • Exploiter les données via Hive et Pig
  • Structurer un pipeline Big Data sous Hadoop

Programme détaillé

Module 1 Jour 1 – Architecture Hadoop et HDFS
  • Introduction au Big Data
  • Fonctionnement du cluster Hadoop
  • Principe et structure de HDFS
  • Chargement de données, commandes HDFS
Module 2 Jour 2 – Développement MapReduce
  • Comprendre MapReduce (Mapper, Reducer, Combiner)
  • Implémentation Java et Hadoop Streaming (Python)
  • Tests de performances (partitions, shuffle)
  • TP : traitement de fichiers volumineux
Module 3 Jour 3 – Hive et Pig
  • Hive : SQL sur HDFS, DDL, DML, UDF
  • Pig : langage de transformation déclaratif
  • Comparaison avec MapReduce classique
  • TP : requêtes sur jeux de données textuels
Module 4 Jour 4 – Projet et cas concrets
  • Pipeline complet (stockage, traitement, analyse)
  • Traitement de logs, fichiers CSV, JSON
  • Audit du flux et mise en qualité
  • Perspectives vers Spark, HBase, YARN

Prérequis

  • Connaissance de Java ou Python
  • Maîtrise de SQL
  • Notions de base sur les architectures distribuées utiles

Public visé

  • Développeurs, data engineers, analystes ou profils IT souhaitant exploiter Hadoop pour des traitements distribués à grande échelle

Modalités de la formation

  • ⏱ Durée : 28h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • 🗓️ Délai d'accès : variable selon le mode de financement, généralement de 11 jours ouvrés à 1 mois après l'inscription. En savoir plus.
  • ♿ Accessibilité : Chaque demande émanant d'une personne en situation de handicap fait l'objet d'une étude de faisabilité et d'adaptation. Contactez notre référent handicap.
🏆
Passage de la certification obligatoire

Cette formation se conclut par le passage d'une certification officielle, indispensable à la validation de votre parcours.

Ressources pédagogiques

  • Support PDF
  • Scripts MapReduce (Java, Python)
  • Scripts Hive et Pig
  • Jeux de données et VM Hadoop si nécessaire

Suivi de l'exécution et évaluation

  • QCM sur l’architecture Hadoop
  • Évaluation via le mini-projet
  • Feuille de présence
  • Questionnaire de satisfaction

Accessibilité

Nous accordons une attention particulière à l'accueil des personnes en situation de handicap. Si vous êtes concerné(e) et souhaitez suivre cette formation, nous vous invitons à nous contacter dès que possible. Ensemble, nous étudierons vos besoins spécifiques et mettrons en place les adaptations nécessaires pour garantir votre accès à la formation dans les meilleures conditions.

Fiche mise à jour le 4 mai 2026.