Statistica: concetti essenziali per la revisione

Origini della statistica

Dalla protostatistica del IV millennio a.C., caratterizzata da semplici conteggi tramite tacche per scopi amministrativi e di censimento, si evolve, nel XVI-XVII secolo, verso una descrizione quantitativa più sistematica di popolazioni. Figure chiave come William Petty e John Graunt introducono l’“aritmetica politica”, concentrandosi su dati demografici come tassi di mortalità e natalità per supportare decisioni di governo e sanità pubblica. Nel XVIII-XIX secolo, Abraham de Moivre formalizza i primi concetti di probabilità, ponendo le basi per la teoria degli errori e l'approssimazione normale della distribuzione binomiale. Gottfried Achenwall conia il termine “statistica” (dall'inglese “state” o dal tedesco “staat” - stato) per indicare la scienza che si occupa della descrizione dello stato. Adolphe Quetelet applica i principi della probabilità allo studio dei fenomeni sociali, introducendo l'idea dell'“uomo medio” come riferimento per le caratteristiche umane. Francis Galton sviluppa i concetti di regressione e correlazione, studiando la trasmissione ereditaria dei caratteri e contribuendo allo sviluppo dell'eugenetica. Alla fine dell’Ottocento, con l’aumento della complessità dei problemi scientifici, nascono la statistica campionaria e l’inferenza statistica grazie a contributi fondamentali da parte di William Sealy Gosset (con la distribuzione t di Student), Karl Pearson (con il test del $ext{chi-quadro } \chi^2$ e il coefficiente di correlazione) e Ronald Fisher (con la teoria della stima, l'ANOVA e la progettazione sperimentale moderna).

Definizione e obiettivi della statistica

La statistica studia quantitativamente fenomeni collettivi, ovvero eventi o caratteristiche che si manifestano in una popolazione o in un ampio gruppo, operando in condizioni di incertezza intrinseca, data la variabilità e la casualità del mondo reale. Utilizza rigorosamente il metodo scientifico, che implica l'osservazione, la formulazione di ipotesi, la raccolta e l'analisi sistematiche dei dati. I suoi scopi principali sono descrivere accuratamente situazioni complesse (statistica descrittiva), inferire conclusioni valide su un'intera popolazione a partire da un campione (statistica inferenziale), formulare teorie basate su evidenze empiriche e supportare decisioni affidabili in vari campi, dalla medicina all'economia, dalla biologia all'ingegneria.

Statistica descrittiva

La statistica descrittiva ha l'obiettivo di sintetizzare e presentare insiemi di dati in modo comprensibile, evidenziando le loro caratteristiche principali. Utilizza diversi tipi di indicatori: di posizione, come la media (indicata come ar{x}, calcolata come la somma dei valori divisa per il numero di osservazioni, ar{x} = \frac{\sum x_i}{n} ), che rappresenta il valore centrale; la moda, che è il valore più frequente in un insieme di dati; e la mediana, che è il valore che divide la distribuzione in due parti uguali, con il 50% delle osservazioni al di sotto e il 50% al di sopra. Si avvale anche di indicatori di dispersione, che misurano quanto i dati sono sparsi attorno al valore centrale: la varianza ( $s^2$ ), che è la media dei quadrati delle deviazioni dei valori dalla media, e la deviazione standard ( $s = \sqrt{s^2}$ ), che è la radice quadrata della varianza e ha la stessa unità di misura dei dati originali, rendendo l'interpretazione della dispersione più intuitiva. Per facilitare ulteriormente la comprensione dei pattern osservati, si ricorre a rappresentazioni grafiche quali istogrammi (per mostrare la distribuzione di frequenza di una variabile continua), box-plot (per visualizzare la dispersione e la presenza di outlier) e grafici a barre (per variabili categoriche).

Statistica inferenziale

La statistica inferenziale è il ramo della statistica dedicato a estendere (generalizzare) le informazioni ottenute da un campione rappresentativo all'intera popolazione da cui il campione è stato estratto. Il suo strumento principale è il test di ipotesi, un processo formale per accettare o rifiutare un'affermazione (ipotesi nulla) sulla popolazione, basandosi sull'evidenza fornita dai dati campionari. Per fare ciò, si avvale di una vasta gamma di strumenti modellistici e statistici, tra cui la regressione lineare (per prevedere una variabile continua in base a una o più variabili predittive continue), la regressione logistica (per prevedere una variabile dicotomica), l'ANOVA (Analysis of Variance, per confrontare le medie di tre o più gruppi), l'ANCOVA (Analysis of Covariance, che combina ANOVA e regressione), vari test di correlazione (es. Pearson, Spearman), il test del $ext{chi-quadro } \chi^2$ (per verificare l'associazione tra variabili categoriche), il test esatto di Fisher e i test di permutazione (che non richiedono assunzioni sulla distribuzione dei dati). L'inferenza statistica si fonda su due approcci principali: il classico (o frequentista), che interpreta la probabilità come la frequenza relativa di un evento su un numero illimitato di ripetizioni di un esperimento, e il bayesiano, che incorpora la conoscenza a priori (o credenze precedenti) sull'evento, aggiornandola con i nuovi dati per ottenere una probabilità a posteriori.

Schema di analisi dei dati

L'analisi dei dati segue un processo strutturato. Si parte dalla comprensione del fenomeno biologico o di interesse e dalla formulazione chiara di un'ipotesi di ricerca. Successivamente, si progetta accuratamente lo schema sperimentale, definendo il disegno, le variabili da misurare e le metodologie di raccolta. Dopo la raccolta dei dati, un passaggio cruciale è il controllo qualità, che include l'identificazione e la correzione di errori di inserimento, la gestione di valori mancanti e l'individuazione di outlier (valori anomali) tramite tecniche come l'ispezione visiva (ad es. box-plot) o test statistici specifici (ad es. Grubb's test). A questo punto, si applicano i modelli statistici o i test statistici appropriati in base alla natura dei dati e all'ipotesi, interpretando i risultati in termini di significatività statistica e rilevanza biologica/pratica. Infine, si giunge alla decisione finale, che può portare ad accettare o rifiutare l'ipotesi iniziale o a formulare nuove domande di ricerca. È fondamentale comprendere che la statistica descrittiva e inferenziale non sono fasi separate, ma piuttosto complementari e iterative nel processo di analisi dei dati.

Definizioni chiave

Un fixed factor (fattore fisso) è una variabile indipendente categorica i cui livelli sono stati specificamente scelti o sono di interesse primario per lo studio (es. specifici dosaggi di un farmaco, diversi genotipi predeterminati). I suoi livelli rappresentano l'intera popolazione di livelli di interesse. Un random factor (fattore casuale) include un gran numero di possibili livelli, di cui solo un sottoinsieme, scelto casualmente, viene indagato. L'interesse non è sui livelli specifici scelti, ma sulla variabilità che essi rappresentano all'interno della popolazione più ampia (es. diversi lotti di un reagente, animali provenienti da diverse gabbie selezionate casualmente). L'unità sperimentale è la più piccola entità a cui viene applicato un trattamento o una manipolazione e su cui viene effettuata una singola misurazione indipendente (es. una singola piastra Petri, un singolo animale). La sample size è, in questo contesto, il numero totale di unità sperimentali incluse nello studio. Le replicates (repliche) sono misurazioni ripetute per aumentare la precisione e la robustezza delle stime. Si distinguono in repliche biologiche, che sono misure effettuate su unità sperimentali distinte e indipendenti (per stimare la variabilità biologica tra gli individui o le unità), e repliche tecniche, che sono misure ripetute sullo stesso campione o unità sperimentale (per stimare l'errore di misurazione o la variabilità dello strumento). I residuals (residui) sono le differenze tra i valori osservati (veri) di una variabile dipendente e i valori predetti (stimati) dal modello statistico. Rappresentano la porzione di varianza nei dati che il modello non è riuscito a spiegare e sono cruciali per la valutazione dell'adeguatezza del modello.

Variabili

Una variabile è qualsiasi caratteristica, proprietà o attributo che può essere misurato o osservato e che può assumere valori diversi. Le variabili si classificano in primis in quantitative (caratteristiche numeriche esprimibili con un numero): discrete, che possono assumere solo valori interi e contabili (es. numero di figli, numero di colonie batteriche); continue, che possono assumere qualsiasi valore all'interno di un intervallo e sono misurate (es. altezza, peso, temperatura). Le variabili possono anche essere qualitative (caratteristiche non numeriche): nominali, che classificano gli oggetti in categorie senza un ordine intrinseco (es. genere, gruppo sanguigno); ordinali, che classificano gli oggetti in categorie con un ordine naturale o una gerarchia (es. livello di istruzione: elementare, media, superiore; gravità della malattia: lieve, moderata, grave). Le variabili possono anche essere derivate da altre misure (es. rapporto tra due quantità). Le variabili casuali assumono valori per puro caso e sono descritte da distribuzioni di probabilità; le variabili deterministiche seguono leggi o relazioni perfettamente note e prevedibili. In pratica, ogni osservazione del mondo reale combina una componente deterministica (l'effetto prevedibile delle variabili indipendenti o dei fattori studiati) e una componente casuale (il