Skip to the content.

Formation Data Cleansing

Professeur : Alain Cariou
École : EPSI
Section : Développeur Data-Science, Développeur IA et Machine Learning
Date : Janvier 2025

← Retour à la base du wiki


I. Qualité des données et Data Cleansing

Définition

Le data cleansing ou nettoyage des données est un processus visant à identifier et corriger les données altérées, inexactes ou non pertinentes.
Ces erreurs incluent :

Objectif : Améliorer la cohérence, la fiabilité et la valeur des données.


II. Les étapes du Data Cleansing

Étape 1 : Identifier les sources de données essentielles

Avant de commencer le nettoyage, il est crucial de :

Cela permet de mieux cibler les corrections nécessaires et de gagner du temps lors des étapes suivantes.


Étape 2 : Collecter les données

Une fois les sources identifiées, procédez à la collecte des données :

L’objectif est de partir sur une base solide pour les étapes suivantes.


Étape 3 : Gérer les doublons

Les doublons peuvent apparaître lorsque les données proviennent de plusieurs sources. Pour les traiter :

  1. Identifiez les données dupliquées en vérifiant les valeurs répétées.
  2. Conservez la version la plus récente ou la plus fiable.

Cela empêche de fausser les analyses et garantit une meilleure précision des résultats.


Étape 4 : Résoudre les valeurs manquantes

Les valeurs vides ou manquantes sont fréquentes. Plusieurs stratégies permettent de les traiter :

L’objectif final est de garantir un dataset complet et cohérent.


Étape 5 : Automatiser et standardiser le processus

L’automatisation est essentielle pour garantir une cohérence dans le nettoyage des données :

Cela permet un gain de temps considérable et évite des erreurs humaines répétées.


Étape 6 : Évaluer et adapter le processus

Le nettoyage des données est un processus itératif. À cette étape, il est important de :

Le but est de surveiller les données régulièrement pour anticiper et corriger les problèmes émergents.


III. Les outils du Data Cleansing

Bibliothèques Python :

Logiciels :


IV. TP : Nettoyage de données

Étape 1 : Choix d’un dataset

Choisissez un dataset parmi les options suivantes ou proposez-en un à valider :

Étape 2 : Étude du dataset

Analysez le dataset et identifiez :

Étape 3 : Script avec Pandas

Rédigez un script Python qui :

Étape 4 : Script avec Pyjanitor

Refaites le nettoyage avec Pyjanitor et comparez-le avec Pandas :

Étape 5 : Utilisation d’OpenRefine

Utilisez OpenRefine pour appliquer les mêmes étapes. Comparez les résultats avec ceux de vos scripts.

Étape 6 : Présentation


Ressources complémentaires


← Retour à la base du wiki

David Chardon
Développeur Data-Science, IA et Machine Learning