Guida Encyclopedica alla Statistica per l'Economia e l'Azienda: Dalla Raccolta Dati alla Verifica di Ipotesi

Processo Decisionale in Condizioni di Incertezza e Metodologia Statistica

Le decisioni aziendali e professionali si basano costantemente su informazioni incomplete. Ad esempio, le società di auditing devono selezionare campioni di scritture contabili, i direttori marketing devono interpretare i gusti dei clienti con dati demografici parziali, e gli investitori devono diversificare portafogli in mercati finanziari volatili. Il metodo statistico è essenziale in ogni fase: dalla definizione del problema alla raccolta dei dati, fino all'inferenza finale. Un corretto utilizzo della statistica permette di ridurre i costi, aumentare i profitti e migliorare i processi e la soddisfazione dei clienti.

Fondamenti del Campionamento e della Misurazione

La popolazione rappresenta l'insieme completo di tutte le unità oggetto di studio ($N$), che può essere molto grande o infinito. Poiché l'analisi censuaria è spesso impraticabile per costi o tempo, si utilizza un campione ($n$), ovvero un suo sottoinsieme. Un campione deve essere rappresentativo e ottenuto tramite casualità. Il campionamento casuale semplice garantisce che ogni unità e ogni campione di dimensione $n$ abbiano la stessa probabilità di essere selezionati. Il campionamento sistematico prevede invece la selezione di un'unità ogni $j$-mo elemento, dove $j = \frac{N}{n}$. Se $N=5000$ e $n=100$, allora $j=50$; si sceglie un numero casuale tra $1$ e $50$ (es. $20$) e si selezionano le posizioni $20, 70, 120, \dots$ sino a raggiungere $100$ unità. Un parametro è una caratteristica specifica della popolazione, mentre una statistica è una caratteristica del campione (es. l'età media osservata in $500$ elettori su milioni).

Tipologie di Errore e Classificazione delle Variabili

Gli errori campionari derivano dall'osservazione di un sottoinsieme limitato della popolazione. Gli errori non campionari possono verificarsi anche nei censimenti e includono: 1. Campionamento di una popolazione non di riferimento (es. il caso Literary Digest del 1936 che predisse erroneamente la vittoria di Alfred Landon su Roosevelt perché basato su liste telefoniche e registri automobilistici, sottostimando i meno abbienti); 2. Risposte imprecise o false (specialmente su temi sensibili come i furti dei dipendenti); 3. Mancate risposte, che riducono la dimensione campionaria e introducono distorsioni.

Le variabili si distinguono in categoriche (risposte per gruppi, es. "Sì/No", genere, stato civile) e numeriche. Queste ultime si dividono in discrete (risultato di un conteggio, es. numero di iscritti) e continue (risultato di misurazione, es. altezza, peso, tempo). Secondo Stanley Smith Stevens (1947), i livelli di misurazione sono: nominale (etichette arbitrarie, es. genere), ordinale (ordine gerarchico senza distanza misurabile, es. giudizio sufficiente/buono), a intervallo (ordine e distanza da un'origine arbitraria, es. gradi Celsius o date storiche) e di rapporto (ordine e distanza da uno zero assoluto, es. peso, età).

Statistica Descrittiva e Rappresentazioni Grafiche

La statistica descrittiva sintetizza i dati tramite grafici e tabelle. Per le variabili categoriche si usano diagrammi a barre (per evidenziare le frequenze), diagrammi a torta (per le proporzioni), e diagrammi di Pareto. Le serie storiche descrivono dati raccolti nel tempo e vengono rappresentate con grafici a spezzata (es. tassi di cambio EUR/USD o traffico social settimanale). Per le variabili numeriche si costruiscono distribuzioni di frequenze raggruppate in $k$ classi di ampiezza $w = \frac{\text{Valore Massimo} - \text{Valore Minimo}}{k}$. Le classi devono essere collettivamente esaustive e mutuamente esclusive. Altri strumenti includono l'istogramma (dove l'area è proporzionale alla frequenza), l'ogiva (curva delle frequenze cumulate) e il diagramma ramo-foglia (stem-and-leaf).

Misure di Tendenza Centrale, Posizione e Variabilità

Le misure di tendenza centrale includono la media aritmetica ( $\mu = \frac{\sum x_i}{N}$ per la popolazione, $\bar{x} = \frac{\sum x_i}{n}$ per il campione), la mediana (valore centrale in una serie ordinata) e la moda (valore più frequente). In distribuzioni asimmetriche positive (oblique a destra), la media è superiore alla mediana. Le misure di posizione includono i quartili ( $Q_1, Q_2, Q_3$ ) e i percentili, calcolati tramite interpolazione lineare: $Q_1 = \text{posizione } 0.25(n+1)$ . I "cinque numeri di sintesi" sono: Minimo, $Q_1$ , Mediana ( $Q_2$ ), $Q_3$ , Massimo, visualizzati nel box-and-whisker plot.

La variabilità è misurata dal campo di variazione (Massimo - Minimo), dalla differenza interquartile ( $IQR = Q_3 - Q_1$ ), dalla varianza ( $s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1}$ per campioni) e dallo scarto quadratico medio ( $s = \sqrt{s^2}$ ). Il coefficiente di variazione ( $CV = \frac{s}{\bar{x}} \times 100\%$ ) permette confronti tra popolazioni con scale diverse. La disuguaglianza di Chebychev afferma che per ogni distribuzione, la percentuale di dati nell'intervallo $\mu \pm k\sigma$ è almeno $1 - \frac{1}{k^2}$ . La regola empirica per distribuzioni campanulari prevede invece circa il $68\%$ , $95\%$ e $99.73\%$ dei dati entro 1, 2 e 3 deviazioni standard.

Relazioni tra Variabili e Regressione Lineare

La covarianza misura la relazione lineare tra due variabili: $Cov(x,y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1}$ . Il coefficiente di correlazione lineare ( $r$ ) standardizza la covarianza tra $-1$ e $+1$ . Se $r=0$ , non c'è relazione lineare. La retta di regressione minimizza la somma dei quadrati dei residui: $y = b_0 + b_1x$ , dove $b_1 = \frac{Cov(x,y)}{s_x^2}$ è la pendenza e $b_0 = \bar{y} - b_1\bar{x}$ è l'intercetta. Esempio: nella Rising Hills Manufacturing, ogni operaio aggiuntivo ( $b_1=2.545$ ) incrementa la produzione oraria di circa $2.5$ tavoli.

Teoria della Probabilità e Bayes

Un esperimento aleatorio produce risultati incerti raccolti nello spazio campionario ($S$). Gli assiomi della probabilità stabiliscono che $0 \le P(A) \le 1$ e $P(S)=1$ . La regola additiva per eventi non escludentesi è $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ . La probabilità condizionata è $P(A|B) = \frac{P(A \cap B)}{P(B)}$ . Due eventi sono indipendenti se $P(A \cap B) = P(A)P(B)$ . Il Teorema di Bayes permette di aggiornare probabilità a priori in seguito a nuove informazioni: $P(B|A) = \frac{P(A|B)P(B)}{P(A)}$ . Esempio: in un test antidoping con il $10\%$ di atleti dopati, sensibilità e specificità del $90\%$, la probabilità che un atleta positivo sia realmente dopato è del $50\%$.

Variabili Aleatorie Discrete e Distribuzioni Fortunate

Una variabile aleatoria discreta ha un valore atteso $E(X) = \sum xP(x)$ e una varianza $\sigma^2 = \sum(x-\mu)^2P(x)$ . La distribuzione binomiale descrive $n$ prove indipendenti con probabilità di successo $p$: $P(x) = \binom{n}{x} p^x (1-p)^{n-x}$ . Media e varianza sono $\mu = np$ e $\sigma^2 = np(1-p)$ . La covarianza tra due variabili aleatorie è $Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]$ . In finanza, un portafoglio $W = aX + bY$ ha varianza $Var(W) = a^2\sigma_X^2 + b^2\sigma_Y^2 + 2abCov(X,Y)$ . La correlazione negativa tra titoli riduce il rischio complessivo (hedging).

Variabili Continue e Distribuzione Normale

Una variabile continua è definita da una funzione di densità $f(x)$ dove l'area sottesa rappresenta la probabilità. La distribuzione uniforme ha densità costante $f(x) = \frac{1}{b-a}$ . La distribuzione normale $N(\mu, \sigma^2)$ è simmetrica e campanulare. La normale standard $Z \sim N(0, 1)$ si ottiene con $\text{Z} = \frac{X-\mu}{\sigma}$ . Se la variabile non è nota come normale, il Teorema del Limite Centrale (CLT) afferma che la media campionaria $\bar{X}$ di un campione grande ( $n \ge 25$ ) tende comunque a distribuirsi normalmente con media $\mu$ e deviazione standard $\frac{\sigma}{\sqrt{n}}$ . Questo è alla base delle carte di controllo industriale (es. monitoraggio del peso delle confezioni di corn-flakes a $\pm 3$ deviazioni standard).

Stima e Verifica delle Ipotesi

Uno stimatore è non distorto se il suo valore atteso è pari al parametro. La media campionaria è uno stimatore non distorto di $\mu$ . L'intervallo di confidenza per $\mu$ con $\sigma$ nota è $\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}$ . Se $\sigma$ è ignota, si usa la distribuzione t di Student con $n-1$ gradi di libertà: $\bar{x} \pm t_{n-1, \alpha/2} \frac{s}{\sqrt{n}}$ . Per le proporzioni, l'intervallo è $\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ .

La verifica di ipotesi contrappone l'ipotesi nulla ( $H_0$ ) all'ipotesi alternativa ( $H_1$ ). L'errore di I tipo ( $\alpha$ ) è rifiutare $H_0$ quando è vera; l'errore di II tipo ( $\beta$ ) è non rifiutare $H_0$ quando è falsa. Il $p$ -value è il più piccolo livello di significatività per cui $H_0$ può essere rifiutata. Un test è unilaterale se $H_1: \mu > \mu_0$ o $\mu < \mu_0$ , bilaterale se $H_1: \mu \neq \mu_0$ . La potenza del test ( $1-\beta$ ) misura la capacità di rifiutare correttamente un'ipotesi nulla falsa.