Variable

1.1 INTRODUCTION : VARIABLES ET DISTRIBUTIONS

  • Présentation de vocabulaire statistique de base.
    • Population : l'ensemble des membres d'une étude, ici, les professeurs universitaires.
    • Unité statistique : chaque membre d'une population, identifié par un numéro ou un nom.
  • Variables et modalités :
    • Variable : caractéristique mesurable d'une unité (exemple : Sexe).
    • Modalités : valeurs que peut prendre une variable (pour Sexe : F et M, pour la Date d’entrée : entiers de 1980 à 2012, etc.).
  • Deux aspects de la statistique :
    • Statistique descriptive : réduction des données à une forme compréhensible via tableaux, graphiques, moyennes, etc.
    • Inférence statistique : utiliser des échantillons pour déduire des propriétés sur la population.
  • Exemples d'application :
    • Données massives d'une municipalité : nécessité d'une réduction pour analyse compréhensible.
    • Recensement : analyse de données à partir de l'intégralité de la population (exemple de 5000 ménages).
  • Sondages et échantillons :
    • Coûts élevés des recensements rendent souvent nécessaires l'utilisation d'échantillons.
    • Importance d'une image fidèle de la population, considérations sur l'exactitude des échantillons.
    • Les techniques d'inférence répondent à la question de la fiabilité des résultats d'un échantillon par rapport à la population.
  • Distinction entre population et échantillon non abordée dans le chapitre présent.

Extrait du tableau A.01 - Quelques données sur un groupe de professeurs

  • Identité, Sexe, Date d'entrée, Département, Salaire à l'entrée, Salaire en 2012, Expérience : données structurées pour description de professeurs.
  • Exemple de données : 10 professeurs avec différentes combinaisons de sexe, date d'entrée, département, salaires, et expériences variées.

1.2 CATÉGORIES DE VARIABLES

  • Variables quantitatives : modalités sous forme de quantités mesurables (salaires, expérience).
  • Variables qualitatives : modalités non mesurables (secteur d'activité, sexe).
  • Frequence et Effectif :
    • Effectif : nombre d'unités pour une modalité donnée.
    • Fréquence : rapport entre l'effectif d'une modalité et l'effectif total (f = rac{ ext{Effectif}}{n}) ; somme des fréquences = 1.
  • Distribution : correspondance entre les valeurs d'une variable et leurs effectifs/fréquences.

1.3 EXEMPLE DE DISTRIBUTION

  • Tableau de distribution pour variable "Département" :
    • Effectifs et fréquences des départements d’étude.
  • Graphique de distribution : Diagramme à barres :
    • Ordre de présentation des barres (croissant ou alphabétique) ; variabilité dans l'affichage selon norme (horizontal pour variables qualitatives).

1.4 REPRÉSENTATION GRAPHIQUE

  • Diagramme à bâtons pour variables quantitatives discrètes : présentation des effectifs.
  • Groupement par classes :
    • Utilisé lorsque les valeurs d'une variable sont nombreuses ; exemple : distribution de l'âge de la population canadienne en classes de 5.

TABLEAU 1.2 - DISTRIBUTION DE L'ÂGE 2011

  • Intervalles d'âge, fréquences associées.
  • Représentation simplifiable par histogramme.

1.5 HISTOGRAMMES ET POLYGONES

  • Histogrammes comme méthode commune de présentation pour les variables quantitatives.
  • Polygone de fréquences : méthode alternative pour visualiser la distribution, favorisant les comparaisons.

COMPARAISONS DE DISTRIBUTIONS

  • Importance de ne comparer que les fréquences, pas les effectifs directs entre distributions.

1.6 ÉCHANTILLON ET MODÈLE THÉORIQUE

  • Modèles de population, exemple de la forme normale (Gaussienne).
    • Symétrie et concentration des données au centre.
  • Histograms illustrant la distribution de la taille chez un groupe de 928 personnes.

1.7 MESURES DE TENDANCE CENTRALE

  • Moyenne arithmétique : calculée comme sommedivisée par le nombre d'unités, très couramment utilisée.
    • Exemple fourni sur le calcul de la moyenne des données d'échantillon de logements.
  • Médiane : donnée centrale dans une série ordonnée. Différence de calcul pour ensembles de taille paire.

SENSIBILITÉ DES MESURES

  • Sensibilité de la moyenne aux valeurs extrêmes ; importance de la médiane comme alternative dans certaines contextes, clarifiée par figures.

1.8 MESURES DE DISPERSION

  • Concept de dispersion : nécessité d’évaluer au-delà des mesures de tendance centrale.
  • Écart-type : mesure des écarts entre données et moyenne, défini mathématiquement. Calcul proposé avec exemple.
    • Introduction à la variance comme mesure, calcul associé.
  • Écart-type corrigé : nécessité de formulation dans certains contextes (calcul par n-1) ; rôle des motivation détaillées plus tard.
  • Comparaisons d'écarts-types : importance de comparer les variations des données par rapport à leurs moyennes respectives (coefficient de variation).

EXEMPLES SUR LA DISPERSION

  • Comparaison illustrative par exemple entre hommes et femmes sur différentes mesures économiques (poids, salaires).
  • Exemple complexe tiré de données sur les salaires, engageant des considérations de inflation et comparaisons de dispersion à travers le temps.