Aller au contenu
Langage & Développement informatique

Web Scraping – Récolter des données sur le web avec Python

Cette formation de 28 heures permet d’apprendre à collecter automatiquement des données depuis le web en utilisant Python. Les participants apprendront à cibler, extraire, structurer et exploiter des données publiques,…

28h
Intermédiaire
Blended

Description de la formation

Introduction & premiers scrapers

  • Notions essentielles du web : HTML, DOM, HTTP
  • Librairies Python : `requests`, `BeautifulSoup`
  • Scraping d’éléments simples (titres, paragraphes, liens, tableaux)
  • Structuration et stockage basique (CSV, JSON)

Scraping structuré et multipage

  • Utilisation des sélecteurs CSS et XPath
  • Gestion de la pagination (URLs dynamiques, liens « suivant »)
  • Scraping de données tabulaires
  • Stockage dans SQLite

Sites dynamiques et robustesse

  • Scraping de contenu dynamique avec `Selenium`
  • Gestion des délais, exceptions, cookies et headers
  • Navigation avec drivers headless, aléatoire, anti-bot
  • Authentification simple simulée (formulaire, session)

Projet final, éthique & RGPD

  • Projet fil rouge : extraction complète d’un site web
  • Structuration et nettoyage des données (finalisation CSV/SQLite)
  • Bonnes pratiques légales : robots.txt, CGU, RGPD
  • Présentation et documentation du projet

Objectifs pédagogiques

  • Extraire des données structurées depuis des pages HTML avec Python
  • Naviguer sur des sites dynamiques ou paginés pour collecter de l’information
  • Utiliser `requests`, `BeautifulSoup` et `Selenium` pour automatiser la récupération de contenu
  • Structurer, stocker et exploiter les données collectées dans le respect de la réglementation

Programme détaillé

Module 1 Introduction & premiers scrapers
  • Notions essentielles du web : HTML, DOM, HTTP
  • Librairies Python : `requests`, `BeautifulSoup`
  • Scraping d’éléments simples (titres, paragraphes, liens, tableaux)
  • Structuration et stockage basique (CSV, JSON)
Module 2 Scraping structuré et multipage
  • Utilisation des sélecteurs CSS et XPath
  • Gestion de la pagination (URLs dynamiques, liens « suivant »)
  • Scraping de données tabulaires
  • Stockage dans SQLite
Module 3 Sites dynamiques et robustesse
  • Scraping de contenu dynamique avec `Selenium`
  • Gestion des délais, exceptions, cookies et headers
  • Navigation avec drivers headless, aléatoire, anti-bot
  • Authentification simple simulée (formulaire, session)
Module 4 Projet final, éthique & RGPD
  • Projet fil rouge : extraction complète d’un site web
  • Structuration et nettoyage des données (finalisation CSV/SQLite)
  • Bonnes pratiques légales : robots.txt, CGU, RGPD
  • Présentation et documentation du projet

Prérequis

  • Bases solides en Python (boucles, fonctions, dictionnaires, fichiers).
  • Notions HTML utiles mais non indispensables.

Public visé

  • Développeurs Python, analystes, chargés de veille ou professionnels de la donnée souhaitant automatiser la collecte d’informations web.

Modalités de la formation

  • ⏱ Durée : 28h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Intermédiaire
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.