Guida Encyclopedica alla Statistica per l'Economia e l'Azienda: Dalla Raccolta Dati alla Verifica di Ipotesi
Processo Decisionale in Condizioni di Incertezza e Metodologia Statistica
Le decisioni aziendali e professionali si basano costantemente su informazioni incomplete. Ad esempio, le società di auditing devono selezionare campioni di scritture contabili, i direttori marketing devono interpretare i gusti dei clienti con dati demografici parziali, e gli investitori devono diversificare portafogli in mercati finanziari volatili. Il metodo statistico è essenziale in ogni fase: dalla definizione del problema alla raccolta dei dati, fino all'inferenza finale. Un corretto utilizzo della statistica permette di ridurre i costi, aumentare i profitti e migliorare i processi e la soddisfazione dei clienti.
Fondamenti del Campionamento e della Misurazione
La popolazione rappresenta l'insieme completo di tutte le unità oggetto di studio ($N$), che può essere molto grande o infinito. Poiché l'analisi censuaria è spesso impraticabile per costi o tempo, si utilizza un campione ($n$), ovvero un suo sottoinsieme. Un campione deve essere rappresentativo e ottenuto tramite casualità. Il campionamento casuale semplice garantisce che ogni unità e ogni campione di dimensione $n$ abbiano la stessa probabilità di essere selezionati. Il campionamento sistematico prevede invece la selezione di un'unità ogni $j$-mo elemento, dove $j = \frac{N}{n}$. Se $N=5000$ e $n=100$, allora $j=50$; si sceglie un numero casuale tra $1$ e $50$ (es. $20$) e si selezionano le posizioni $20, 70, 120, \dots$ sino a raggiungere $100$ unità. Un parametro è una caratteristica specifica della popolazione, mentre una statistica è una caratteristica del campione (es. l'età media osservata in $500$ elettori su milioni).
Tipologie di Errore e Classificazione delle Variabili
Gli errori campionari derivano dall'osservazione di un sottoinsieme limitato della popolazione. Gli errori non campionari possono verificarsi anche nei censimenti e includono: 1. Campionamento di una popolazione non di riferimento (es. il caso Literary Digest del 1936 che predisse erroneamente la vittoria di Alfred Landon su Roosevelt perché basato su liste telefoniche e registri automobilistici, sottostimando i meno abbienti); 2. Risposte imprecise o false (specialmente su temi sensibili come i furti dei dipendenti); 3. Mancate risposte, che riducono la dimensione campionaria e introducono distorsioni.
Le variabili si distinguono in categoriche (risposte per gruppi, es. "Sì/No", genere, stato civile) e numeriche. Queste ultime si dividono in discrete (risultato di un conteggio, es. numero di iscritti) e continue (risultato di misurazione, es. altezza, peso, tempo). Secondo Stanley Smith Stevens (1947), i livelli di misurazione sono: nominale (etichette arbitrarie, es. genere), ordinale (ordine gerarchico senza distanza misurabile, es. giudizio sufficiente/buono), a intervallo (ordine e distanza da un'origine arbitraria, es. gradi Celsius o date storiche) e di rapporto (ordine e distanza da uno zero assoluto, es. peso, età).
Statistica Descrittiva e Rappresentazioni Grafiche
La statistica descrittiva sintetizza i dati tramite grafici e tabelle. Per le variabili categoriche si usano diagrammi a barre (per evidenziare le frequenze), diagrammi a torta (per le proporzioni), e diagrammi di Pareto. Le serie storiche descrivono dati raccolti nel tempo e vengono rappresentate con grafici a spezzata (es. tassi di cambio EUR/USD o traffico social settimanale). Per le variabili numeriche si costruiscono distribuzioni di frequenze raggruppate in $k$ classi di ampiezza $w = \frac{\text{Valore Massimo} - \text{Valore Minimo}}{k}$. Le classi devono essere collettivamente esaustive e mutuamente esclusive. Altri strumenti includono l'istogramma (dove l'area è proporzionale alla frequenza), l'ogiva (curva delle frequenze cumulate) e il diagramma ramo-foglia (stem-and-leaf).
Misure di Tendenza Centrale, Posizione e Variabilità
Le misure di tendenza centrale includono la media aritmetica ( per la popolazione, per il campione), la mediana (valore centrale in una serie ordinata) e la moda (valore più frequente). In distribuzioni asimmetriche positive (oblique a destra), la media è superiore alla mediana. Le misure di posizione includono i quartili () e i percentili, calcolati tramite interpolazione lineare: . I "cinque numeri di sintesi" sono: Minimo, , Mediana (), , Massimo, visualizzati nel box-and-whisker plot.
La variabilità è misurata dal campo di variazione (Massimo - Minimo), dalla differenza interquartile (), dalla varianza ( per campioni) e dallo scarto quadratico medio (). Il coefficiente di variazione () permette confronti tra popolazioni con scale diverse. La disuguaglianza di Chebychev afferma che per ogni distribuzione, la percentuale di dati nell'intervallo è almeno . La regola empirica per distribuzioni campanulari prevede invece circa il , e dei dati entro 1, 2 e 3 deviazioni standard.
Relazioni tra Variabili e Regressione Lineare
La covarianza misura la relazione lineare tra due variabili: . Il coefficiente di correlazione lineare () standardizza la covarianza tra e . Se , non c'è relazione lineare. La retta di regressione minimizza la somma dei quadrati dei residui: , dove è la pendenza e è l'intercetta. Esempio: nella Rising Hills Manufacturing, ogni operaio aggiuntivo () incrementa la produzione oraria di circa $2.5$ tavoli.
Teoria della Probabilità e Bayes
Un esperimento aleatorio produce risultati incerti raccolti nello spazio campionario ($S$). Gli assiomi della probabilità stabiliscono che e . La regola additiva per eventi non escludentesi è . La probabilità condizionata è . Due eventi sono indipendenti se . Il Teorema di Bayes permette di aggiornare probabilità a priori in seguito a nuove informazioni: . Esempio: in un test antidoping con il $10\%$ di atleti dopati, sensibilità e specificità del $90\%$, la probabilità che un atleta positivo sia realmente dopato è del $50\%$.
Variabili Aleatorie Discrete e Distribuzioni Fortunate
Una variabile aleatoria discreta ha un valore atteso e una varianza . La distribuzione binomiale descrive $n$ prove indipendenti con probabilità di successo $p$: . Media e varianza sono e . La covarianza tra due variabili aleatorie è . In finanza, un portafoglio ha varianza . La correlazione negativa tra titoli riduce il rischio complessivo (hedging).
Variabili Continue e Distribuzione Normale
Una variabile continua è definita da una funzione di densità dove l'area sottesa rappresenta la probabilità. La distribuzione uniforme ha densità costante . La distribuzione normale è simmetrica e campanulare. La normale standard si ottiene con . Se la variabile non è nota come normale, il Teorema del Limite Centrale (CLT) afferma che la media campionaria di un campione grande () tende comunque a distribuirsi normalmente con media e deviazione standard . Questo è alla base delle carte di controllo industriale (es. monitoraggio del peso delle confezioni di corn-flakes a deviazioni standard).
Stima e Verifica delle Ipotesi
Uno stimatore è non distorto se il suo valore atteso è pari al parametro. La media campionaria è uno stimatore non distorto di . L'intervallo di confidenza per con nota è . Se è ignota, si usa la distribuzione t di Student con gradi di libertà: . Per le proporzioni, l'intervallo è .
La verifica di ipotesi contrappone l'ipotesi nulla () all'ipotesi alternativa (). L'errore di I tipo () è rifiutare quando è vera; l'errore di II tipo () è non rifiutare quando è falsa. Il -value è il più piccolo livello di significatività per cui può essere rifiutata. Un test è unilaterale se o , bilaterale se . La potenza del test () misura la capacità di rifiutare correttamente un'ipotesi nulla falsa.