Formation Data Cleansing

Professeur : Alain Cariou
École : EPSI
Section : Développeur Data-Science, Développeur IA et Machine Learning
Date : Janvier 2025

← Retour à la base du wiki

I. Qualité des données et Data Cleansing

Définition

Le data cleansing ou nettoyage des données est un processus visant à identifier et corriger les données altérées, inexactes ou non pertinentes.
Ces erreurs incluent :

Données manquantes ou mal renseignées
Erreurs de saisie
Données dupliquées, non pertinentes ou corrompues

Objectif : Améliorer la cohérence, la fiabilité et la valeur des données.

II. Les étapes du Data Cleansing

Étape 1 : Identifier les sources de données essentielles

Avant de commencer le nettoyage, il est crucial de :

Déterminer quelles données sont les plus utiles pour le projet.
Tracer la provenance des données et identifier où se trouvent les erreurs les plus fréquentes.

Cela permet de mieux cibler les corrections nécessaires et de gagner du temps lors des étapes suivantes.

Étape 2 : Collecter les données

Une fois les sources identifiées, procédez à la collecte des données :

Vérifiez la qualité et la cohérence des données collectées.
Assurez-vous que les différentes sources sont compatibles pour éviter des incohérences dès le départ.

L’objectif est de partir sur une base solide pour les étapes suivantes.

Étape 3 : Gérer les doublons

Les doublons peuvent apparaître lorsque les données proviennent de plusieurs sources. Pour les traiter :

Identifiez les données dupliquées en vérifiant les valeurs répétées.
Conservez la version la plus récente ou la plus fiable.

Cela empêche de fausser les analyses et garantit une meilleure précision des résultats.

Étape 4 : Résoudre les valeurs manquantes

Les valeurs vides ou manquantes sont fréquentes. Plusieurs stratégies permettent de les traiter :

Supprimer les lignes où des valeurs sont manquantes.
Compléter les valeurs manquantes en utilisant des méthodes comme :
- Moyenne
- Médiane
- Valeur la plus fréquente
- Algorithmes (ex. k-nearest neighbors).
Étiqueter les valeurs comme “manquantes” pour signaler leur absence.

L’objectif final est de garantir un dataset complet et cohérent.

Étape 5 : Automatiser et standardiser le processus

L’automatisation est essentielle pour garantir une cohérence dans le nettoyage des données :

Standardisez les processus pour les rendre reproductibles.
Déterminez :
- Les données les plus utilisées.
- La fréquence à laquelle le nettoyage doit être effectué (quotidien, hebdomadaire, mensuel).
- Les responsables de la maintenance du processus.

Cela permet un gain de temps considérable et évite des erreurs humaines répétées.

Étape 6 : Évaluer et adapter le processus

Le nettoyage des données est un processus itératif. À cette étape, il est important de :

Évaluer l’efficacité du processus :
- Quels sont les points positifs ?
- Quels aspects peuvent être améliorés ?
Identifier les problèmes récurrents et ajuster le processus en conséquence.
Communiquer avec l’équipe pour partager les retours et les améliorations.

Le but est de surveiller les données régulièrement pour anticiper et corriger les problèmes émergents.

III. Les outils du Data Cleansing

Bibliothèques Python :

Pandas
- Manipule et nettoie les datasets.
- Documentation : Pandas Docs
Pyjanitor
- Extension pour un nettoyage lisible et efficace.
- Documentation : Pyjanitor Docs

Logiciels :

OpenRefine
- Nettoie et structure les données en CSV, XML, JSON, etc.
- Téléchargement : OpenRefine

IV. TP : Nettoyage de données

Étape 1 : Choix d’un dataset

Choisissez un dataset parmi les options suivantes ou proposez-en un à valider :

Étape 2 : Étude du dataset

Analysez le dataset et identifiez :

Le sujet traité.
Les erreurs les plus courantes.
Les moyens de représenter ces problèmes (ex. graphes).

Étape 3 : Script avec Pandas

Rédigez un script Python qui :

Supprime les doublons.
Remplace ou étiquette les valeurs manquantes.
Corrige les erreurs de format.

Étape 4 : Script avec Pyjanitor

Refaites le nettoyage avec Pyjanitor et comparez-le avec Pandas :

Quels avantages ou inconvénients remarquez-vous ?
Le script peut-il être générique pour d’autres datasets ?

Étape 5 : Utilisation d’OpenRefine

Utilisez OpenRefine pour appliquer les mêmes étapes. Comparez les résultats avec ceux de vos scripts.

Étape 6 : Présentation

Documentez vos recherches et résultats.
Partagez vos conclusions avec vos collègues.

Ressources complémentaires

← Retour à la base du wiki

David Chardon
Développeur Data-Science, IA et Machine Learning