U

21. Du brut au traitable - Le pré-traitement des données

Pourquoi un cours sur le pré-traitement des données?

Le pré-traitement est essentiel car les données brutes sont souvent bruitées, incomplètes et non analysables. Une mauvaise préparation peut mener à des conclusions erronées.

Objectifs du Pré-traitement

Le pré-traitement transforme les données brutes en données analysables, garantissant la qualité et la fiabilité des résultats en corrigeant les erreurs et en traitant les valeurs manquantes ou aberrantes. Il assure également que les données sont dans un format compatible avec les logiciels statistiques.

Étapes du Pré-traitement

  1. Consolidation et Contrôle des Erreurs:

    • Regroupement de fichiers de données individuels en une base de données structurée.

    • Fusion (merging) de fichiers basée sur une variable commune.

    • Intégration de données provenant de sources différentes.

  2. Doublons:

    • Identifier et gérer les doublons pour éviter de fausser les analyses.

    • S'assurer de l'unicité du code, vérifier si les doublons représentent le même participant, et agir en conséquence (garder la première occurrence ou distinguer les participants).

  3. Erreurs de Codage ou d'Enregistrement:

    • Repérer les incohérences en contrôlant les valeurs minimales et maximales.

    • Corriger si l'information exacte peut être retrouvée, sinon considérer comme valeurs manquantes.

  4. Les Données Manquantes:

    • Les valeurs manquantes peuvent être aléatoires ou systématiques.

    • Solutions pour les erreurs aléatoires : Ajouter les données correctes si possible, laisser tel quel, ou imputer les données (moyenne, régression).

    • Solutions pour les erreurs systématiques (variable annexe) : Pair-wise deletion.

    • Solutions pour les erreurs systématiques (VI ou VD) : List-wise deletion.

  5. Les Valeurs Extrêmes:

    • Définition : Observations s'écartant fortement des autres valeurs.

    • Impact : Amplification ou annulation des effets.

    • Détection : Analyse des distributions (2% serait inhabituelle, 0.1% serait extrême).

    • Standardisation : Transformer les données en Z-scores (moyenne à 0, écart-type à 1).

    • Identifier les valeurs extrêmes via des méthodes visuelles (Box plot) (Q1/Q3 \pm 1.5IQR\ ou \3IQR)

    • Les extrêmes bi-variés  Distance de Mahalanobis

    • Que faire: Enlever ces participants, Transformer les données ,Utiliser des analyses non-paramétriques, Winsorisation, Imputation, Elagage (Trimming)

  6. Les distributions:

    • Définition : Résumé des valeurs possibles et de leur fréquence.

    • Importance : Repérer les problèmes et décider de la prochaine étape.

    • Distributions normales : Symétrique, moyenne = médiane = mode, règle du 68%-95%-99.7%.

      • Tester la normalité : Test de Shapiro-Wilk (petits échantillons), Test de Kolmogorov-Smirnov (K-S) (grands échantillons).

      • Assymétrie (Skewness) :regarder le coefficient dʼassymétrie: signe et valeur (+/- 1).

      • Applatissement (Kurtosis) : (+/- 3)

  7. La transformation des données:

    • Appliquer une fonction mathématique aux données brutes pour normaliser la distribution.

  8. Documentation et format:

    • Versionnage : Garder une trace de toutes les modifications apportées aux fichiers.

Take-Home Message

Le pré-traitement est fondamental pour obtenir des résultats rigoureux et valides. Il inclut la consolidation des données, la gestion des doublons, la correction des erreurs de codage, le traitement des valeurs manquantes et extrêmes, et l'analyse des distributions. Toutes les étapes doivent être documentées en détail.