Aller au contenu
Data Analytics, Data Visualization et BI

Modern Data Engineering avec Hadoop, Hive, et alternatives Cloud (BigQuery, Snowflake)

Formation complète pour traiter des données massives avec Hadoop et découvrir les solutions analytiques cloud modernes comme BigQuery et Snowflake.

Intermédiaire
Blended

Description de la formation

Introduction au Big Data & écosystème Hadoop

  • Historique, cas d’usage, architecture HDFS
  • Hive, Pig, HBase : rôles, forces, limites
  • MapReduce et Spark : traitements batch et mémoire
  • Démonstration : exécution d’un job Hadoop simple

Pratique Hadoop & Hive

  • Installation d’un mini-cluster (VM ou Docker)
  • Utilisation de HDFS : chargement, transformation, export
  • Langage HiveQL : requêtes SQL sur HDFS
  • Cas pratique : traitement de fichiers logs massifs

Au-delà d’Hadoop : Cloud & plateformes modernes

  • Présentation de BigQuery (GCP), Snowflake, Redshift
  • Comparatif architecture, performance, coût
  • Ingestion de données dans un entrepôt cloud
  • Atelier : transformation SQL à grande échelle dans BigQuery

Construction de pipelines hybrides

  • Intégration avec Talend / Airflow / dbt
  • Cas d’usage moderne : reporting, IA, dashboards
  • Bonnes pratiques de maintenance et sécurité

Objectifs pédagogiques

  • Comprendre les bases du traitement distribué avec Hadoop et son écosystème (Hive, HDFS, Pig)
  • Identifier les limites d’Hadoop et les alternatives cloud modernes (BigQuery, Snowflake)
  • Mettre en œuvre des chaînes de traitement Big Data batch et hybrides (on-prem/cloud)
  • Déployer des workflows efficaces intégrés dans des pipelines analytiques actuels

Programme détaillé

Module 1 Introduction au Big Data & écosystème Hadoop
  • Historique, cas d’usage, architecture HDFS
  • Hive, Pig, HBase : rôles, forces, limites
  • MapReduce et Spark : traitements batch et mémoire
  • Démonstration : exécution d’un job Hadoop simple
Module 2 Pratique Hadoop & Hive
  • Installation d’un mini-cluster (VM ou Docker)
  • Utilisation de HDFS : chargement, transformation, export
  • Langage HiveQL : requêtes SQL sur HDFS
  • Cas pratique : traitement de fichiers logs massifs
Module 3 Au-delà d’Hadoop : Cloud & plateformes modernes
  • Présentation de BigQuery (GCP), Snowflake, Redshift
  • Comparatif architecture, performance, coût
  • Ingestion de données dans un entrepôt cloud
  • Atelier : transformation SQL à grande échelle dans BigQuery
Module 4 Construction de pipelines hybrides
  • Intégration avec Talend / Airflow / dbt
  • Cas d’usage moderne : reporting, IA, dashboards
  • Bonnes pratiques de maintenance et sécurité

Prérequis

  • Maîtrise de SQL
  • Connaissances générales en systèmes distribués ou cloud

Public visé

  • Développeurs, data engineers, architectes IT, chefs de projet data

Modalités de la formation

  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.