Aller au contenu
Langage & Développement informatique

Hadoop – Développer des applications pour le Big Data

Cette formation de 28 heures permet de comprendre l’architecture Hadoop et de développer des applications pour le traitement distribué de données massives. Les participants manipulent HDFS, conçoivent des traitements MapReduce,…

28h
Intermédiaire
Blended

Description de la formation

Jour 1 – Architecture Hadoop et HDFS

  • Introduction au Big Data
  • Fonctionnement du cluster Hadoop
  • Principe et structure de HDFS
  • Chargement de données, commandes HDFS

Jour 2 – Développement MapReduce

  • Comprendre MapReduce (Mapper, Reducer, Combiner)
  • Implémentation Java et Hadoop Streaming (Python)
  • Tests de performances (partitions, shuffle)
  • TP : traitement de fichiers volumineux

Jour 3 – Hive et Pig

  • Hive : SQL sur HDFS, DDL, DML, UDF
  • Pig : langage de transformation déclaratif
  • Comparaison avec MapReduce classique
  • TP : requêtes sur jeux de données textuels

Jour 4 – Projet et cas concrets

  • Pipeline complet (stockage, traitement, analyse)
  • Traitement de logs, fichiers CSV, JSON
  • Audit du flux et mise en qualité
  • Perspectives vers Spark, HBase, YARN

Objectifs pédagogiques

  • Comprendre le fonctionnement du système de fichiers HDFS
  • Développer des traitements MapReduce (Java ou Python)
  • Exploiter les données via Hive et Pig
  • Structurer un pipeline Big Data sous Hadoop

Programme détaillé

Module 1 Jour 1 – Architecture Hadoop et HDFS
  • Introduction au Big Data
  • Fonctionnement du cluster Hadoop
  • Principe et structure de HDFS
  • Chargement de données, commandes HDFS
Module 2 Jour 2 – Développement MapReduce
  • Comprendre MapReduce (Mapper, Reducer, Combiner)
  • Implémentation Java et Hadoop Streaming (Python)
  • Tests de performances (partitions, shuffle)
  • TP : traitement de fichiers volumineux
Module 3 Jour 3 – Hive et Pig
  • Hive : SQL sur HDFS, DDL, DML, UDF
  • Pig : langage de transformation déclaratif
  • Comparaison avec MapReduce classique
  • TP : requêtes sur jeux de données textuels
Module 4 Jour 4 – Projet et cas concrets
  • Pipeline complet (stockage, traitement, analyse)
  • Traitement de logs, fichiers CSV, JSON
  • Audit du flux et mise en qualité
  • Perspectives vers Spark, HBase, YARN

Prérequis

  • Connaissance de Java ou Python
  • Maîtrise de SQL
  • Notions de base sur les architectures distribuées utiles

Public visé

  • Développeurs, data engineers, analystes ou profils IT souhaitant exploiter Hadoop pour des traitements distribués à grande échelle

Modalités de la formation

  • ⏱ Durée : 28h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.