21. Du brut au traitable - Le pré-traitement des données

0.0(0)
studied byStudied by 0 people
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/44

encourage image

There's no tags or description

Looks like no tags are added yet.

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

45 Terms

1
New cards

Pourquoi on pré-traite les données ?

Ce qu’on obtient des participants ≠ ce qu’on doit analyser

2
New cards

Le pré-traitement est une étape fondamentale

  • Les données brutes sont souvent bruitées, incomplètes ou mal structurées … et surtout non-analysables

  • Une mauvaise préparation peut entraîner des conclusions erronées et un gaspillage de ressources

  • Les erreurs de saisie et les valeurs aberrantes fausses les données

3
New cards

Pré-traitement des données

  • Mise en forme / nettoyage des données

  • Permet de passer des données brutes aux données analysables

  • Vise à garantir la qualité et la fiabilité des résultats en corrigeant les erreurs, en traitant les valeurs manquantes et/ou aberrantes

  • La mise en forme des données vise à pouvoir analyser les données à l’aide des logiciels statistiques en respectant le format nécessaire aux analyses prévues

4
New cards

Objectifs du pré-traitement des données

Ils visent à améliorer la qualité des données, à assurer leur cohérence, et à maximiser la précision des analyses statistiques en éliminant les erreurs et en comblant les lacunes.

5
New cards

Étapes du pré-traitement

6
New cards

CCE : Consolidation des données

Processus de regroupement de plusieurs fichiers de données individuels en une seule base de données structurée

7
New cards

CCE : Fusion (merging)

Assemblage de plusieurs fichiers en fonction d'une variable commune, généralement l'identifiant du participant.

8
New cards

CCE : Intégration (integration)

Rassemblement de données provenant de sources différentes, comme des questionnaires, des mesures physiologiques et des performances comportementales.

9
New cards

Doublon

Un participant enregistré plusieurs fois dans un jeu de données.

10
New cards

CCE : Les doublons

  • La présence de doublons peut fausser les analyses en attribuant un poids excessif à certains participant

  • Peut arriver car il a complété l’étude plusieurs fois, a recommencé l’étude, ou a été saisie deux fois

  • Si le code n’est pas assez spécifique (unique) : il se peut que ce soit deux participants différents

11
New cards

CCE : Que faire des doublons ?

  1. Sʼassurer de lʼunicité du code (avant la récolte de données)

  2. Voir si il est possible de savoir si cʼest le même participant ou non (Date de naissance? Autre identifiant?)

  3. Si cʼest deux différents: les garder les deux (en trouvant un moyen de les distinguer)

  4. Si cʼest le même: en général ne garder que la première occurrence du remplissage (peut impliquer une fusion) → évite apprentissage ou fatigue

12
New cards

CCE : Erreur de codage ou d'enregistrement

  • Incohérence ou inexactitude survenue lors de la saisie, de la transformation ou de l'enregistrement des données

  • Ces erreurs peuvent fausser les analyses et compromettre la validité des résultats

13
New cards

CCE : Que faire avec les erreurs de codage ou d’enregistrement ?

  • Repérage :

    • Contrôler les valeurs minimales et maximales de chaque cellule (pour chaque type de variable)

    • Identifier toutes les cellules problématiques (pas uniquement le maximum et le minimum)

  • Action :

    • Si on peut retrouver l’information exact (à 100% sûr) → insérer les valeurs correctes

    • Si on ne peut pas retrouver l’information → valeurs manquantes

14
New cards

Valeurs manquantes

  • Absence de certaines observations dans un jeu de données, ce qui peut affecter l'analyse statistique et biaiser les conclusions

  • Elles peuvent être dues à diverses raisons, comme des erreurs techniques, des choix des participants, ou des biais systématiques liés aux variables étudiées

  • Le choix de la méthode de coercition dépend du champ, de la question de recherche, et des types de valeurs manquantes (impact potentiel sur les analyses)

15
New cards

Types de données manquantes

16
New cards

DM : Solution pour les erreurs aléatoires

  • Si on peut retrouver lʼinformation (par exemple pour un manquement lors du passage du questionnaire papier à la base de données) Ajouter les données correctes

  • Laisser tel quel (surtout si item dʼun questionnaire) Vérifier le bon scoring dans la sous-dimension

  • Imputer les données

    • Lʼimputation consiste à remplacer les valeurs manquantes par une estimation

      • Prendre la moyenne des autres items → réduit la variance

      • Imputer par regression (prédiction) de lʼitem manquant → suppose une relation linaire

17
New cards

Imputer les données

Remplacer les valeurs manquantes par une estimation (moyenne des autres items, régression).

18
New cards

DM : Solution pour les erreurs systématiques

  • Variables annexes

    → Pair-wise deletion (suppression par paire de données disponibles)

  • Variables indépendantes ou dépendantes

    → List-wise deletion (suppression d’observation)

19
New cards

Pair-wise deletion (suppression par paire de données disponibles)

  • Utilisation de toutes les données disponibles pour chaque analyse, sans exclure complètement les participants avec des valeurs manquantes.

  • Chaque statistique (corrélation, régression,…) est calculé avec les valeurs présentes, sans exclure complètement les participants avec des valeurs manquantes

  • Permet d’exploiter le plus de données possibles sans réduire l’échantillon

  • Les différentes analyses seront basées sur des échantillons légèrement différents

20
New cards

List-wise deletion (suppression d'observation)

  • Suppression des lignes (observation) contenant au moins une valeur manquante

  • Pas d’estimation et toutes les analyses seront faites sur le même échantillon

  • Peux réduire drastiquement la taille de l’échantillon

21
New cards

Valeur extrême / aberrante – outlier

  • Observation qui s'écarte fortement des autres valeurs d'un jeu de données

  • Peut-être du à :

    • Des participants avec des valeurs très éloignées de celles de leur groupe (mais légitime et possible)

    • Une erreur de mesure

22
New cards

VE : Impact et seuils

<img src="https://knowt-user-attachments.s3.amazonaws.com/e97c8a7e-9ce4-469c-aae7-c0bc5d0e79f4.png" data-width="50%" data-align="center" alt=""><img src="https://knowt-user-attachments.s3.amazonaws.com/509fc367-af19-4d53-b9b6-969385ffae88.png" data-width="50%" data-align="center" alt=""><img src="https://knowt-user-attachments.s3.amazonaws.com/7affd8a3-f55c-4c92-aae7-bab615871412.png" data-width="50%" data-align="center"><p></p>
23
New cards

VE : Standardisation des données

  • Processus consistant à transformer les données afin qu'elles aient une échelle commune, ce qui permet de les comparer plus facilement

  • Méthode la plus connue : le Z-score

    • moyenne = 0

    • écart-type = 1

    • unité : “écart-type de l’échantillon”

24
New cards

Standardisation test ≠ standardisation des données

  • TEST

    → processus visant à uniformiser des procédures, des mesures ou des outils pour assurer leur cohérence et comparabilité

  • DONNÉES

    → Processus consistant à transformer les données afin qu’elles aient une échelle commune, ce qui permet de les comparer plus facilement

25
New cards

VE : représentation impact et seuils

  1. Boîte

    → représente l’intervalle interquartile

    → contient la moitié centrale des données (50%)

  2. Ligne médiane

    → une ligne à l’intérieur de la

  3. Moustaches

  4. Valeurs extrêmes

26
New cards

Les extrêmes bi-variés

  • Distance de Mahalanobis

    → Mesure de la distance d'un point à partir du centroïde d'une distribution multivariée

27
New cards

Que faire avec les valeurs extrêmes ?

  1. Enlever ces participants

  2. Transformer les données

  3. Utiliser des analyses non-paramétriques

  4. Winsorisation

  5. Imputation

  6. Elagage (trimming)

28
New cards

VE : Enlever ces participants

→ Est-ce légitime ?
→ Favoriser les analyses avec et sans

29
New cards

VE : Transformer les données

→ Quand les distributions ne sont pas normales

30
New cards

VE : Utiliser des analyses non-paramétriques

→ La majorité utilise les RANGs

→ La valeur extrême est juste “le rang suivant”

31
New cards

VE : Les rangs

→ Correspond à la position d’une valeur dans un ensemble de données triées (par ordre croissant ou décroissant)

→ Utilisés pour traiter des données non normales, permettant des comparaisons entre groupes. Les rangs sont attribués aux valeurs afin d'effectuer des analyses plus robustes

32
New cards

VE : Winsorisation

→ Remplacer une valeur extrême avec la dernière valeur « acceptable » (par exemple, le 5e ou le 95e percentile)

33
New cards

VE : Imputationn

→ Remplacer la valeur avec la valeur médiane ou une valeur estimée (par régression par exemple)

34
New cards

VE : Élagage (Trimming)

→ Enlever un certain pourcentage de participants aux extrêmes de la distribution

35
New cards

Les distributions

  • Résumé de toutes les valeurs ou plages de valeurs possibles dans un ensemble de données et de leur fréquence d'apparition

  • Moyen d’organiser et de comprendre les mesures et les données

  • Permet de repérer les problèmes (valeurs extrêmes ou asymétrie)

  • Permet de décider de la prochaine étape du traitement des données (transformation ou choix d’analyses)

36
New cards

Les distributions normales et ses indicateurs

→ Un type de distribution de probabilité caractérisée par sa forme en cloche, où la majorité des valeurs se concentrent autour de la moyenne.

→ Ses indicateurs incluent la moyenne, l'écart-type et la variance, qui déterminent la position et la dispersion des données.

37
New cards

Tester la normalité

  • Test de Shapiro-Wilk

    • Utilisé pour les petits échantillons

    • Très sensible aux valeurs extrêmes

  • Test de Kolmogorov-Smirnov (K-S)

    • Peut être utilisé pour des échantillons plus grands

    • Très sensible à la déviation de la normalité

knowt flashcard image

38
New cards

Assymétrie (Skewness)

Mesure le degré de dissymétrie d'une distribution par rapport à une distribution normale

→ regarder le coefficient d’assymétrie : signe et valeur

39
New cards

Applatissement (Kurtosis)

Mesure la propension de la distribution à produire des valeurs extrêmes

+ / - 3

40
New cards

Multimodalité

Caractéristique d'une distribution qui présente plusieurs modes ou pics, indiquant la présence de plusieurs groupes ou tendances distincts dans les données

41
New cards

Uniformité

Mesure de la distribution des données où chaque valeur a la même fréquence, entraînant une répartition uniforme

42
New cards

Transformation des données

→ Appliquer une fonction mathématique aux données brutes pour rendre leur distribution plus normale

  • Avantages :

    • Facilite l’utilisation de tests paramétriques en respectant l’hypothèse de normalité

    • Rend la distribution plus symétrique

    • Rend la distribution moins plates ou pointues

    • Atténue l’impact des valeurs extrêmes

  • Inconvénients :

    • Les données transformées peuvent devenir plus difficiles à interpréter

    • Certaines transformations modifient la relation avec les autres variables

43
New cards

Scoring des échelles

Processus d'évaluation des réponses sur une échelle prédéterminée, permettant d'attribuer des scores en fonction des performances ou des opinions des répondants.

44
New cards

Traçabilité

Capacité à suivre et de vérifier toutes les étapes d’un processus de recherche, depuis la collecte des données jusqu’à l’analyse et la publication

45
New cards

Versionnage

Garder une trace de toutes les modifications apportées à un fichier ou à un ensemble de fichiers au fil du temps