Rappresentazioni Grafiche, Tabelle di Contingenza e Fondamenti di Probabilità

Introduzione alle Rappresentazioni Grafiche

Un fenomeno può essere rappresentato in diversi modi, ma l'utilità di un grafico risiede nella sua semplicità: quando la costruzione di un grafico diventa più complicata della semplice lettura dei valori numerici in una tabella, esso perde la sua funzione primaria. Una rappresentazione grafica efficace deve essere:

Intuitiva: comprensibile a colpo d'occhio.
Immediata: capace di trasmettere l'informazione senza lunghe analisi.
Facilmente interpretabile: chiara nel significato dei dati mostrati.

Sebbene sia facile ottenere un grafico a partire dalle tabelle, la scelta di utilizzare una rappresentazione visiva è spesso dettata dalla necessità di presentare i risultati a un pubblico, poiché una serie di valori numerici puri può risultare meno immediata da interpretare rispetto a un'immagine.

Diagramma a Torta (Aerogramma)

Il diagramma a torta è utilizzato per rappresentare la distribuzione della frequenza di una variabile qualitativa.

Caratteristiche e Costruzione

Le frequenze relative delle diverse categorie sono rappresentate dividendo un cerchio in settori. Ciascun settore ha un angolo al centro che è direttamente proporzionale alla frequenza relativa della categoria specifica.

Formula per l'ampiezza dell'angolo: $\text{Frequenza relativa} \times 360^{\circ}$

Elementi Aggiuntivi

Per migliorare la leggibilità, è possibile inserire:

Un'etichetta con il nome della categoria.
La frequenza assoluta o la percentuale corrispondente.

Esempi e Limitazioni

Utilizzando come esempio un grafico sugli studenti che praticano sport a livello amatoriale o agonistico, è possibile cogliere immediatamente l'indice di tendenza centrale, ovvero la moda della distribuzione.

Svantaggi: se le categorie da rappresentare sono numerose, il grafico a torta diventa difficile da leggere. In tali circostanze, è preferibile optare per un diagramma a barre.
Accessibilità: si raccomanda di evitare l'uso contemporaneo di rosso e verde per garantire la leggibilità a persone affette da daltonismo. La scelta più efficiente è l'utilizzo di una scala di gradazione di un unico colore.

Diagramma a Barre

Nel diagramma a barre, l'altezza dei rettangoli (denominati barre) è proporzionale alla frequenza, sia essa assoluta o relativa.

Struttura Generale

Asse x: riporta le modalità della variabile (es. tipo di sport praticato).
Asse y: riporta le frequenze assolute o relative.

Funzionalità del Grafico

Questo strumento permette di:

Individuare la moda: la modalità più frequente (ad esempio, la pallavolo in un set di dati sportivi).
Confrontare rapidamente le categorie.
Stabilire un ranking: identificare la gerarchia e le differenze interne di frequenza tra le modalità.
Valutare l'uniformità: una distribuzione è uniforme se le frequenze sono tutte uguali (assenza di una moda prevalente).

Limite principale: non consente di cogliere la distanza esatta tra i valori osservati.

Regole di Formattazione

Le barre possono essere orientate verticalmente o orizzontalmente.
Le barre devono essere separate tra loro.
In caso di variabili qualitative ordinarie, le barre devono seguire obbligatoriamente l'ordine prestabilito delle modalità.

Nota bene: il diagramma a barre non è un istogramma; si tratta di due tipologie grafiche distinte.

Istogramma

L'istogramma è il diagramma specifico per rappresentare la distribuzione di frequenza di variabili quantitative. La sua costruzione richiede la suddivisione dei dati in classi (intervalli).

Caratteristiche Geometriche

Base del rettangolo: corrisponde all'ampiezza della classe.
Altezza del rettangolo: rappresenta la densità di frequenza.
Area del rettangolo: rappresenta la frequenza totale della classe.

Proporzionalità e Calcolo

A differenza del diagramma a barre, l'altezza è proporzionale alla frequenza solo se le classi hanno la stessa ampiezza. Se le ampiezze sono diverse, l'altezza deve essere calcolata come:

$\text{densità di frequenza} = \frac{\text{frequenza}}{\text{ampiezza dell'intervallo}}$

Questa formula assicura che l'area rimanga rappresentativa della frequenza. Spesso si preferiscono classi di uguale ampiezza per semplificare la costruzione e l'interpretazione visiva. L'istogramma è fondamentale per cogliere la variabilità e la dispersione dei dati: in classi centrali molto strette, una densità elevata indica una concentrazione dei dati.

Differenze tra Diagramma a Barre e Istogramma

Caratteristica	Diagramma a Barre	Istogramma
Tipo di Variabile	Qualitative (categoriche)	Quantitative (numeriche)
Posizione Barre	Separate o contigue (la distanza non conta)	Obbligatoriamente contigue*
Larghezza Barre	Tutte uguale larghezza	Dipende dall'ampiezza dell'intervallo
Altezza	Proporzionale alla frequenza	Rappresenta la densità di frequenza

*Eccezione nell'istogramma: i rettangoli possono essere leggermente distanziati solo se rappresentano variabili discrete con ampiezza d'intervallo pari a 1.

Boxplot (Diagramma a Scatola e Baffi)

Il boxplot è una rappresentazione che sfrutta gli indici sintetici per descrivere la distribuzione e facilitare il confronto tra popolazioni diverse.

Componenti del Boxplot

Scatola (Box): delimitata dal primo quartile ( $Q1$ ) e dal terzo quartile ( $Q3$ ). La grandezza della scatola è definita dal range interquartile.
Linea interna: rappresenta la mediana.
Baffi (Whiskers): due linee che si estendono fino al valore minimo e massimo (range).
Punti (Outliers): osservazioni anomale la cui distanza dai bordi della scatola è superiore a $1,5$ volte l'ampiezza della scatola stessa (range interquartile).

Utilità

Permette di valutare rapidamente la variabilità dei dati e l'eventuale presenza di anomalie (outliers).

Considerazioni Generali e Classificazione

Un grafico per essere definito efficace dovrebbe:

Possedere un titolo chiaro e descrittivo.
Indicare esplicitamente i dati (etichette e frequenze, senza sovraccaricare).
Specificare le variabili analizzate e l'unità di misura.
Essere accompagnato, se possibile, dalla tabella dei dati originale.

Schema Riassuntivo delle Rappresentazioni

Per caratteri qualitativi:

Diagrammi simbolici
Grafici a barre
Aerogrammi (diagrammi a torta)

Per caratteri quantitativi:

Diagramma cartesiano (indicato per variabili discrete)
Istogramma
Boxplot

Per distribuzioni doppie:

Diagramma di dispersione (scatter plot)

Grafici multidimensionali:

Facce di Chernoff: utilizzate, ad esempio, per descrivere il livello socio-economico dei quartieri. Le caratteristiche del viso (occhi, naso, bocca) mappano diverse variabili; un viso sorridente indica un quartiere con livello socio-economico elevato, mentre un viso triste indica condizioni svantaggiate.

Tabelle di Contingenza

Le tabelle di contingenza sono lo strumento utilizzato per analizzare l'associazione tra due variabili ( $X$ e $Y$ ).

Struttura

Righe: modalità della variabile $X$ .
Colonne: modalità della variabile $Y$ .
Frequenza assoluta congiunta: il numero di volte in cui si osserva contemporaneamente una coppia di modalità.
Frequenze marginali: i totali per riga e per colonna, che rappresentano le frequenze assolute delle singole variabili.

Analisi e Frequenze Condizionate

Per studiare il legame tra le variabili, si ricorre alle frequenze relative condizionate.

Esempio Pratico: Analisi di $57$ studenti classificati per livello di pratica sportiva e infortuni negli ultimi 12 mesi. Se vogliamo calcolare la frequenza degli infortuni condizionata al gruppo che pratica sport a livello amatoriale (ipotizziamo $19$ persone in questa categoria), il denominatore per il calcolo della percentuale sarà $19$ e non il totale di $57$ . Questo permette di confrontare correttamente i gruppi (es. agonisti vs amatori).

Introduzione alla Probabilità

La probabilità è una misura dell'incertezza legata al verificarsi di un evento. Si associa a ogni evento un numero $P(.)$ compreso nell'intervallo $[0, 1]$ :

Evento impossibile: $P = 0$
Evento certo: $P = 1$

Eventi Complementari

Due eventi $A$ e $A^c$ sono complementari se il verificarsi di uno esclude l'altro e se uno dei due deve necessariamente avvenire. Insieme coprono tutto lo spazio campionario.

Formula: $P(A^c) = 1 - P(A)$

Esempio (Lancio di un dado):

Evento $A$ : esce il numero $6$ ( $P(A) = \frac{1}{6}$ ).
Evento $A^c$ : non esce il $6$ (esce $1, 2, 3, 4$ o $5$ ).
$P(A^c) = 1 - \frac{1}{6} = \frac{5}{6}$ .

Probabilità dell'Unione di due Eventi

Eventi incompatibili (mutuamente esclusivi): $P(A \cup B) = P(A) + P(B)$
Eventi non incompatibili: $P(A \cup B) = P(A) + P(B) - P(A \cap B)$

Probabilità dell'Intersezione di due Eventi

Eventi indipendenti: il verificarsi di uno non modifica la probabilità dell'altro. $P(A \cap B) = P(A) \times P(B)$
Eventi non indipendenti: $P(A \cap B) = P(A) \times P(B|A) = P(B) \times P(A|B)$ Dove $P(B|A)$ è la probabilità di $B$ dato che si è verificato $A$ .

Teorema di Bayes

Il Teorema di Bayes permette di aggiornare la probabilità di un evento alla luce di nuove informazioni.

Applicazione nei Test Diagnostici

Probabilità a priori: la probabilità iniziale che un paziente abbia una malattia prima del test.
Probabilità a posteriori: la probabilità aggiornata dopo aver ottenuto il risultato del test (es. test positivo).

Il processo di aggiornamento è continuo: una probabilità a posteriori può diventare la nuova probabilità a priori per una valutazione successiva.