Aller au contenu
Data Analytics, Data Visualization et BI

Big Data Analytics avec Python

Formation pratique pour maîtriser l’analyse de données massives avec Python, de la préparation des jeux de données à la modélisation prédictive et à la visualisation interactive.

Intermédiaire
Blended

Description de la formation

Introduction à la Data Science & à l’environnement Python

  • Rappels Python : structures, librairies (NumPy, pandas, matplotlib)
  • Notebooks interactifs (Jupyter, Google Colab)
  • Présentation des grandes étapes d’un projet data

Préparation & traitement des données volumineuses

  • Nettoyage et exploration (EDA) de datasets massifs
  • Gestion des données manquantes et catégorielles
  • Optimisation mémoire et temps de traitement
  • Chargement depuis CSV, SQL, API, JSON, etc.

Modélisation supervisée

  • Régression linéaire et logistique
  • Arbres de décision, Random Forest, Gradient Boosting
  • Évaluation : courbes ROC, AUC, scores F1, précision/rappel
  • Validation croisée, overfitting, sélection de variables

Modélisation non supervisée

  • Clustering (k-means, DBSCAN, hiérarchique)
  • Réduction de dimension : PCA, t-SNE, UMAP
  • Détection d’anomalies

Analyse de données textuelles (NLP)

  • Nettoyage, tokenisation, lemmatisation
  • Nettoyage, tokenisation, lemmatisation
  • Analyse de sentiments, catégorisation, résumé automatique

Visualisation & restitution des résultats

  • Graphiques interactifs avec seaborn, plotly
  • Dashboarding avec Streamlit ou Dash
  • Data storytelling et communication des résultats

Objectifs pédagogiques

  • Acquérir les fondamentaux de la data science et du big data en environnement Python
  • Maîtriser les outils de modélisation et d’évaluation d’algorithmes prédictifs
  • Explorer, transformer et analyser de grands jeux de données structurés et non structurés
  • Mettre en œuvre des analyses statistiques, textuelles et visuelles à grande échelle

Programme détaillé

Module 1 Introduction à la Data Science & à l’environnement Python
  • Rappels Python : structures, librairies (NumPy, pandas, matplotlib)
  • Notebooks interactifs (Jupyter, Google Colab)
  • Présentation des grandes étapes d’un projet data
Module 2 Préparation & traitement des données volumineuses
  • Nettoyage et exploration (EDA) de datasets massifs
  • Gestion des données manquantes et catégorielles
  • Optimisation mémoire et temps de traitement
  • Chargement depuis CSV, SQL, API, JSON, etc.
Module 3 Modélisation supervisée
  • Régression linéaire et logistique
  • Arbres de décision, Random Forest, Gradient Boosting
  • Évaluation : courbes ROC, AUC, scores F1, précision/rappel
  • Validation croisée, overfitting, sélection de variables
Module 4 Modélisation non supervisée
  • Clustering (k-means, DBSCAN, hiérarchique)
  • Réduction de dimension : PCA, t-SNE, UMAP
  • Détection d’anomalies
Module 5 Analyse de données textuelles (NLP)
  • Nettoyage, tokenisation, lemmatisation
  • Nettoyage, tokenisation, lemmatisation
  • Analyse de sentiments, catégorisation, résumé automatique
Module 6 Visualisation & restitution des résultats
  • Graphiques interactifs avec seaborn, plotly
  • Dashboarding avec Streamlit ou Dash
  • Data storytelling et communication des résultats

Prérequis

  • Connaissances de base en Python (structures, boucles, fonctions)
  • Notions en statistiques descriptives et modélisation

Public visé

  • Responsables et analystes métiers (marketing, qualité, risque, RH…)
  • Développeurs, chefs de projets, consultants data

Modalités de la formation

  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.