Aller au contenu
Langage & Développement informatique

NLP – Traitement du langage naturel avec Python

Cette formation de 21 heures permet de découvrir les techniques de traitement du langage naturel (NLP) avec Python. Elle couvre l’ensemble du flux de traitement : nettoyage de texte, vectorisation,…

21h
Avancé
Blended

Description de la formation

Jour 1 – Bases du NLP avec Python

  • Cas d’usage et enjeux du NLP
  • Nettoyage de texte : ponctuation, accents, regex, stopwords
  • Tokenisation, lemmatisation avec nltk et spaCy
  • Analyse d’un petit corpus (textes simples ou CSV)

Jour 2 – NLP classique et vectorisation

  • TF, TF-IDF, CountVectorizer / TfidfVectorizer (scikit-learn)
  • Analyse de fréquence, mots-clés, nuages de mots
  • Classification de textes : SVM, logistique (pipeline sklearn)
  • Évaluation du modèle (accuracy, confusion matrix)

Jour 3 – NLP avancé et modèles préentraînés

  • Embeddings (word2vec, spaCy)
  • Détection de sentiment avec modèles simples
  • Introduction aux transformers et Hugging Face
  • Projet final : traitement d’un corpus + restitution

Objectifs pédagogiques

  • Prétraiter et structurer un corpus de texte avec Python
  • Extraire les éléments pertinents pour l’analyse (mots-clés, fréquence…)
  • Appliquer des modèles classiques de NLP (vectorisation, classification)
  • Expérimenter un modèle préentraîné via la bibliothèque transformers

Programme détaillé

Module 1 Jour 1 – Bases du NLP avec Python
  • Cas d’usage et enjeux du NLP
  • Nettoyage de texte : ponctuation, accents, regex, stopwords
  • Tokenisation, lemmatisation avec nltk et spaCy
  • Analyse d’un petit corpus (textes simples ou CSV)
Module 2 Jour 2 – NLP classique et vectorisation
  • TF, TF-IDF, CountVectorizer / TfidfVectorizer (scikit-learn)
  • Analyse de fréquence, mots-clés, nuages de mots
  • Classification de textes : SVM, logistique (pipeline sklearn)
  • Évaluation du modèle (accuracy, confusion matrix)
Module 3 Jour 3 – NLP avancé et modèles préentraînés
  • Embeddings (word2vec, spaCy)
  • Détection de sentiment avec modèles simples
  • Introduction aux transformers et Hugging Face
  • Projet final : traitement d’un corpus + restitution

Prérequis

  • Maîtrise de Python (boucles, fonctions, chaînes, fichiers)
  • Connaissances de pandas et de base en machine learning recommandées

Public visé

  • Développeurs, analystes, communicants, data scientists débutants ou profils en reconversion IA

Modalités de la formation

  • ⏱ Durée : 21h
  • 📍 Format : Mixte (présentiel + distanciel)
  • 📊 Niveau d'entrée : Avancé
  • 👥 Effectif : 4 à 12 stagiaires (groupe restreint)
  • 🎯 Pédagogie : Apports théoriques, exercices pratiques, études de cas, projet fil rouge
  • ♿ Accessibilité : Formations accessibles aux personnes en situation de handicap. Contactez notre référent handicap.