Rappresentazioni Grafiche, Tabelle di Contingenza e Fondamenti di Probabilità

Introduzione alle Rappresentazioni Grafiche

Un fenomeno può essere rappresentato in diversi modi, ma l'utilità di un grafico risiede nella sua semplicità: quando la costruzione di un grafico diventa più complicata della semplice lettura dei valori numerici in una tabella, esso perde la sua funzione primaria. Una rappresentazione grafica efficace deve essere:

  • Intuitiva: comprensibile a colpo d'occhio.
  • Immediata: capace di trasmettere l'informazione senza lunghe analisi.
  • Facilmente interpretabile: chiara nel significato dei dati mostrati.

Sebbene sia facile ottenere un grafico a partire dalle tabelle, la scelta di utilizzare una rappresentazione visiva è spesso dettata dalla necessità di presentare i risultati a un pubblico, poiché una serie di valori numerici puri può risultare meno immediata da interpretare rispetto a un'immagine.

Diagramma a Torta (Aerogramma)

Il diagramma a torta è utilizzato per rappresentare la distribuzione della frequenza di una variabile qualitativa.

Caratteristiche e Costruzione

Le frequenze relative delle diverse categorie sono rappresentate dividendo un cerchio in settori. Ciascun settore ha un angolo al centro che è direttamente proporzionale alla frequenza relativa della categoria specifica.

  • Formula per l'ampiezza dell'angolo: Frequenza relativa×360\text{Frequenza relativa} \times 360^{\circ}
Elementi Aggiuntivi

Per migliorare la leggibilità, è possibile inserire:

  • Un'etichetta con il nome della categoria.
  • La frequenza assoluta o la percentuale corrispondente.
Esempi e Limitazioni

Utilizzando come esempio un grafico sugli studenti che praticano sport a livello amatoriale o agonistico, è possibile cogliere immediatamente l'indice di tendenza centrale, ovvero la moda della distribuzione.

  • Svantaggi: se le categorie da rappresentare sono numerose, il grafico a torta diventa difficile da leggere. In tali circostanze, è preferibile optare per un diagramma a barre.
  • Accessibilità: si raccomanda di evitare l'uso contemporaneo di rosso e verde per garantire la leggibilità a persone affette da daltonismo. La scelta più efficiente è l'utilizzo di una scala di gradazione di un unico colore.

Diagramma a Barre

Nel diagramma a barre, l'altezza dei rettangoli (denominati barre) è proporzionale alla frequenza, sia essa assoluta o relativa.

Struttura Generale
  • Asse x: riporta le modalità della variabile (es. tipo di sport praticato).
  • Asse y: riporta le frequenze assolute o relative.
Funzionalità del Grafico

Questo strumento permette di:

  1. Individuare la moda: la modalità più frequente (ad esempio, la pallavolo in un set di dati sportivi).
  2. Confrontare rapidamente le categorie.
  3. Stabilire un ranking: identificare la gerarchia e le differenze interne di frequenza tra le modalità.
  4. Valutare l'uniformità: una distribuzione è uniforme se le frequenze sono tutte uguali (assenza di una moda prevalente).

Limite principale: non consente di cogliere la distanza esatta tra i valori osservati.

Regole di Formattazione
  • Le barre possono essere orientate verticalmente o orizzontalmente.
  • Le barre devono essere separate tra loro.
  • In caso di variabili qualitative ordinarie, le barre devono seguire obbligatoriamente l'ordine prestabilito delle modalità.

Nota bene: il diagramma a barre non è un istogramma; si tratta di due tipologie grafiche distinte.

Istogramma

L'istogramma è il diagramma specifico per rappresentare la distribuzione di frequenza di variabili quantitative. La sua costruzione richiede la suddivisione dei dati in classi (intervalli).

Caratteristiche Geometriche
  • Base del rettangolo: corrisponde all'ampiezza della classe.
  • Altezza del rettangolo: rappresenta la densità di frequenza.
  • Area del rettangolo: rappresenta la frequenza totale della classe.
Proporzionalità e Calcolo

A differenza del diagramma a barre, l'altezza è proporzionale alla frequenza solo se le classi hanno la stessa ampiezza. Se le ampiezze sono diverse, l'altezza deve essere calcolata come:

densitaˋ di frequenza=frequenzaampiezza dell’intervallo\text{densità di frequenza} = \frac{\text{frequenza}}{\text{ampiezza dell'intervallo}}

Questa formula assicura che l'area rimanga rappresentativa della frequenza. Spesso si preferiscono classi di uguale ampiezza per semplificare la costruzione e l'interpretazione visiva. L'istogramma è fondamentale per cogliere la variabilità e la dispersione dei dati: in classi centrali molto strette, una densità elevata indica una concentrazione dei dati.

Differenze tra Diagramma a Barre e Istogramma

CaratteristicaDiagramma a BarreIstogramma
Tipo di VariabileQualitative (categoriche)Quantitative (numeriche)
Posizione BarreSeparate o contigue (la distanza non conta)Obbligatoriamente contigue*
Larghezza BarreTutte uguale larghezzaDipende dall'ampiezza dell'intervallo
AltezzaProporzionale alla frequenzaRappresenta la densità di frequenza

*Eccezione nell'istogramma: i rettangoli possono essere leggermente distanziati solo se rappresentano variabili discrete con ampiezza d'intervallo pari a 1.

Boxplot (Diagramma a Scatola e Baffi)

Il boxplot è una rappresentazione che sfrutta gli indici sintetici per descrivere la distribuzione e facilitare il confronto tra popolazioni diverse.

Componenti del Boxplot
  1. Scatola (Box): delimitata dal primo quartile (Q1Q1) e dal terzo quartile (Q3Q3). La grandezza della scatola è definita dal range interquartile.
  2. Linea interna: rappresenta la mediana.
  3. Baffi (Whiskers): due linee che si estendono fino al valore minimo e massimo (range).
  4. Punti (Outliers): osservazioni anomale la cui distanza dai bordi della scatola è superiore a 1,51,5 volte l'ampiezza della scatola stessa (range interquartile).
Utilità

Permette di valutare rapidamente la variabilità dei dati e l'eventuale presenza di anomalie (outliers).

Considerazioni Generali e Classificazione

Un grafico per essere definito efficace dovrebbe:

  • Possedere un titolo chiaro e descrittivo.
  • Indicare esplicitamente i dati (etichette e frequenze, senza sovraccaricare).
  • Specificare le variabili analizzate e l'unità di misura.
  • Essere accompagnato, se possibile, dalla tabella dei dati originale.
Schema Riassuntivo delle Rappresentazioni

Per caratteri qualitativi:

  • Diagrammi simbolici
  • Grafici a barre
  • Aerogrammi (diagrammi a torta)

Per caratteri quantitativi:

  • Diagramma cartesiano (indicato per variabili discrete)
  • Istogramma
  • Boxplot

Per distribuzioni doppie:

  • Diagramma di dispersione (scatter plot)

Grafici multidimensionali:

  • Facce di Chernoff: utilizzate, ad esempio, per descrivere il livello socio-economico dei quartieri. Le caratteristiche del viso (occhi, naso, bocca) mappano diverse variabili; un viso sorridente indica un quartiere con livello socio-economico elevato, mentre un viso triste indica condizioni svantaggiate.

Tabelle di Contingenza

Le tabelle di contingenza sono lo strumento utilizzato per analizzare l'associazione tra due variabili (XX e YY).

Struttura
  • Righe: modalità della variabile XX.
  • Colonne: modalità della variabile YY.
  • Frequenza assoluta congiunta: il numero di volte in cui si osserva contemporaneamente una coppia di modalità.
  • Frequenze marginali: i totali per riga e per colonna, che rappresentano le frequenze assolute delle singole variabili.
Analisi e Frequenze Condizionate

Per studiare il legame tra le variabili, si ricorre alle frequenze relative condizionate.

Esempio Pratico: Analisi di 5757 studenti classificati per livello di pratica sportiva e infortuni negli ultimi 12 mesi. Se vogliamo calcolare la frequenza degli infortuni condizionata al gruppo che pratica sport a livello amatoriale (ipotizziamo 1919 persone in questa categoria), il denominatore per il calcolo della percentuale sarà 1919 e non il totale di 5757. Questo permette di confrontare correttamente i gruppi (es. agonisti vs amatori).

Introduzione alla Probabilità

La probabilità è una misura dell'incertezza legata al verificarsi di un evento. Si associa a ogni evento un numero P(.)P(.) compreso nell'intervallo [0,1][0, 1]:

  • Evento impossibile: P=0P = 0
  • Evento certo: P=1P = 1
Eventi Complementari

Due eventi AA e AcA^c sono complementari se il verificarsi di uno esclude l'altro e se uno dei due deve necessariamente avvenire. Insieme coprono tutto lo spazio campionario.

Formula: P(Ac)=1P(A)P(A^c) = 1 - P(A)

Esempio (Lancio di un dado):

  • Evento AA: esce il numero 66 (P(A)=16P(A) = \frac{1}{6}).
  • Evento AcA^c: non esce il 66 (esce 1,2,3,41, 2, 3, 4 o 55).
  • P(Ac)=116=56P(A^c) = 1 - \frac{1}{6} = \frac{5}{6}.
Probabilità dell'Unione di due Eventi
  • Eventi incompatibili (mutuamente esclusivi): P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)
  • Eventi non incompatibili: P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)
Probabilità dell'Intersezione di due Eventi
  • Eventi indipendenti: il verificarsi di uno non modifica la probabilità dell'altro. P(AB)=P(A)×P(B)P(A \cap B) = P(A) \times P(B)
  • Eventi non indipendenti: P(AB)=P(A)×P(BA)=P(B)×P(AB)P(A \cap B) = P(A) \times P(B|A) = P(B) \times P(A|B) Dove P(BA)P(B|A) è la probabilità di BB dato che si è verificato AA.

Teorema di Bayes

Il Teorema di Bayes permette di aggiornare la probabilità di un evento alla luce di nuove informazioni.

Applicazione nei Test Diagnostici
  • Probabilità a priori: la probabilità iniziale che un paziente abbia una malattia prima del test.
  • Probabilità a posteriori: la probabilità aggiornata dopo aver ottenuto il risultato del test (es. test positivo).

Il processo di aggiornamento è continuo: una probabilità a posteriori può diventare la nuova probabilità a priori per una valutazione successiva.