Rappresentazioni Grafiche, Tabelle di Contingenza e Fondamenti di Probabilità
Introduzione alle Rappresentazioni Grafiche
Un fenomeno può essere rappresentato in diversi modi, ma l'utilità di un grafico risiede nella sua semplicità: quando la costruzione di un grafico diventa più complicata della semplice lettura dei valori numerici in una tabella, esso perde la sua funzione primaria. Una rappresentazione grafica efficace deve essere:
- Intuitiva: comprensibile a colpo d'occhio.
- Immediata: capace di trasmettere l'informazione senza lunghe analisi.
- Facilmente interpretabile: chiara nel significato dei dati mostrati.
Sebbene sia facile ottenere un grafico a partire dalle tabelle, la scelta di utilizzare una rappresentazione visiva è spesso dettata dalla necessità di presentare i risultati a un pubblico, poiché una serie di valori numerici puri può risultare meno immediata da interpretare rispetto a un'immagine.
Diagramma a Torta (Aerogramma)
Il diagramma a torta è utilizzato per rappresentare la distribuzione della frequenza di una variabile qualitativa.
Caratteristiche e Costruzione
Le frequenze relative delle diverse categorie sono rappresentate dividendo un cerchio in settori. Ciascun settore ha un angolo al centro che è direttamente proporzionale alla frequenza relativa della categoria specifica.
- Formula per l'ampiezza dell'angolo:
Elementi Aggiuntivi
Per migliorare la leggibilità, è possibile inserire:
- Un'etichetta con il nome della categoria.
- La frequenza assoluta o la percentuale corrispondente.
Esempi e Limitazioni
Utilizzando come esempio un grafico sugli studenti che praticano sport a livello amatoriale o agonistico, è possibile cogliere immediatamente l'indice di tendenza centrale, ovvero la moda della distribuzione.
- Svantaggi: se le categorie da rappresentare sono numerose, il grafico a torta diventa difficile da leggere. In tali circostanze, è preferibile optare per un diagramma a barre.
- Accessibilità: si raccomanda di evitare l'uso contemporaneo di rosso e verde per garantire la leggibilità a persone affette da daltonismo. La scelta più efficiente è l'utilizzo di una scala di gradazione di un unico colore.
Diagramma a Barre
Nel diagramma a barre, l'altezza dei rettangoli (denominati barre) è proporzionale alla frequenza, sia essa assoluta o relativa.
Struttura Generale
- Asse x: riporta le modalità della variabile (es. tipo di sport praticato).
- Asse y: riporta le frequenze assolute o relative.
Funzionalità del Grafico
Questo strumento permette di:
- Individuare la moda: la modalità più frequente (ad esempio, la pallavolo in un set di dati sportivi).
- Confrontare rapidamente le categorie.
- Stabilire un ranking: identificare la gerarchia e le differenze interne di frequenza tra le modalità.
- Valutare l'uniformità: una distribuzione è uniforme se le frequenze sono tutte uguali (assenza di una moda prevalente).
Limite principale: non consente di cogliere la distanza esatta tra i valori osservati.
Regole di Formattazione
- Le barre possono essere orientate verticalmente o orizzontalmente.
- Le barre devono essere separate tra loro.
- In caso di variabili qualitative ordinarie, le barre devono seguire obbligatoriamente l'ordine prestabilito delle modalità.
Nota bene: il diagramma a barre non è un istogramma; si tratta di due tipologie grafiche distinte.
Istogramma
L'istogramma è il diagramma specifico per rappresentare la distribuzione di frequenza di variabili quantitative. La sua costruzione richiede la suddivisione dei dati in classi (intervalli).
Caratteristiche Geometriche
- Base del rettangolo: corrisponde all'ampiezza della classe.
- Altezza del rettangolo: rappresenta la densità di frequenza.
- Area del rettangolo: rappresenta la frequenza totale della classe.
Proporzionalità e Calcolo
A differenza del diagramma a barre, l'altezza è proporzionale alla frequenza solo se le classi hanno la stessa ampiezza. Se le ampiezze sono diverse, l'altezza deve essere calcolata come:
Questa formula assicura che l'area rimanga rappresentativa della frequenza. Spesso si preferiscono classi di uguale ampiezza per semplificare la costruzione e l'interpretazione visiva. L'istogramma è fondamentale per cogliere la variabilità e la dispersione dei dati: in classi centrali molto strette, una densità elevata indica una concentrazione dei dati.
Differenze tra Diagramma a Barre e Istogramma
| Caratteristica | Diagramma a Barre | Istogramma |
|---|---|---|
| Tipo di Variabile | Qualitative (categoriche) | Quantitative (numeriche) |
| Posizione Barre | Separate o contigue (la distanza non conta) | Obbligatoriamente contigue* |
| Larghezza Barre | Tutte uguale larghezza | Dipende dall'ampiezza dell'intervallo |
| Altezza | Proporzionale alla frequenza | Rappresenta la densità di frequenza |
*Eccezione nell'istogramma: i rettangoli possono essere leggermente distanziati solo se rappresentano variabili discrete con ampiezza d'intervallo pari a 1.
Boxplot (Diagramma a Scatola e Baffi)
Il boxplot è una rappresentazione che sfrutta gli indici sintetici per descrivere la distribuzione e facilitare il confronto tra popolazioni diverse.
Componenti del Boxplot
- Scatola (Box): delimitata dal primo quartile () e dal terzo quartile (). La grandezza della scatola è definita dal range interquartile.
- Linea interna: rappresenta la mediana.
- Baffi (Whiskers): due linee che si estendono fino al valore minimo e massimo (range).
- Punti (Outliers): osservazioni anomale la cui distanza dai bordi della scatola è superiore a volte l'ampiezza della scatola stessa (range interquartile).
Utilità
Permette di valutare rapidamente la variabilità dei dati e l'eventuale presenza di anomalie (outliers).
Considerazioni Generali e Classificazione
Un grafico per essere definito efficace dovrebbe:
- Possedere un titolo chiaro e descrittivo.
- Indicare esplicitamente i dati (etichette e frequenze, senza sovraccaricare).
- Specificare le variabili analizzate e l'unità di misura.
- Essere accompagnato, se possibile, dalla tabella dei dati originale.
Schema Riassuntivo delle Rappresentazioni
Per caratteri qualitativi:
- Diagrammi simbolici
- Grafici a barre
- Aerogrammi (diagrammi a torta)
Per caratteri quantitativi:
- Diagramma cartesiano (indicato per variabili discrete)
- Istogramma
- Boxplot
Per distribuzioni doppie:
- Diagramma di dispersione (scatter plot)
Grafici multidimensionali:
- Facce di Chernoff: utilizzate, ad esempio, per descrivere il livello socio-economico dei quartieri. Le caratteristiche del viso (occhi, naso, bocca) mappano diverse variabili; un viso sorridente indica un quartiere con livello socio-economico elevato, mentre un viso triste indica condizioni svantaggiate.
Tabelle di Contingenza
Le tabelle di contingenza sono lo strumento utilizzato per analizzare l'associazione tra due variabili ( e ).
Struttura
- Righe: modalità della variabile .
- Colonne: modalità della variabile .
- Frequenza assoluta congiunta: il numero di volte in cui si osserva contemporaneamente una coppia di modalità.
- Frequenze marginali: i totali per riga e per colonna, che rappresentano le frequenze assolute delle singole variabili.
Analisi e Frequenze Condizionate
Per studiare il legame tra le variabili, si ricorre alle frequenze relative condizionate.
Esempio Pratico: Analisi di studenti classificati per livello di pratica sportiva e infortuni negli ultimi 12 mesi. Se vogliamo calcolare la frequenza degli infortuni condizionata al gruppo che pratica sport a livello amatoriale (ipotizziamo persone in questa categoria), il denominatore per il calcolo della percentuale sarà e non il totale di . Questo permette di confrontare correttamente i gruppi (es. agonisti vs amatori).
Introduzione alla Probabilità
La probabilità è una misura dell'incertezza legata al verificarsi di un evento. Si associa a ogni evento un numero compreso nell'intervallo :
- Evento impossibile:
- Evento certo:
Eventi Complementari
Due eventi e sono complementari se il verificarsi di uno esclude l'altro e se uno dei due deve necessariamente avvenire. Insieme coprono tutto lo spazio campionario.
Formula:
Esempio (Lancio di un dado):
- Evento : esce il numero ().
- Evento : non esce il (esce o ).
- .
Probabilità dell'Unione di due Eventi
- Eventi incompatibili (mutuamente esclusivi):
- Eventi non incompatibili:
Probabilità dell'Intersezione di due Eventi
- Eventi indipendenti: il verificarsi di uno non modifica la probabilità dell'altro.
- Eventi non indipendenti: Dove è la probabilità di dato che si è verificato .
Teorema di Bayes
Il Teorema di Bayes permette di aggiornare la probabilità di un evento alla luce di nuove informazioni.
Applicazione nei Test Diagnostici
- Probabilità a priori: la probabilità iniziale che un paziente abbia una malattia prima del test.
- Probabilità a posteriori: la probabilità aggiornata dopo aver ottenuto il risultato del test (es. test positivo).
Il processo di aggiornamento è continuo: una probabilità a posteriori può diventare la nuova probabilità a priori per una valutazione successiva.