Guida Encyclopedica alla Statistica per l'Economia e l'Azienda: Dalla Raccolta Dati alla Verifica di Ipotesi

Processo Decisionale in Condizioni di Incertezza e Metodologia Statistica

Le decisioni aziendali e professionali si basano costantemente su informazioni incomplete. Ad esempio, le società di auditing devono selezionare campioni di scritture contabili, i direttori marketing devono interpretare i gusti dei clienti con dati demografici parziali, e gli investitori devono diversificare portafogli in mercati finanziari volatili. Il metodo statistico è essenziale in ogni fase: dalla definizione del problema alla raccolta dei dati, fino all'inferenza finale. Un corretto utilizzo della statistica permette di ridurre i costi, aumentare i profitti e migliorare i processi e la soddisfazione dei clienti.

Fondamenti del Campionamento e della Misurazione

La popolazione rappresenta l'insieme completo di tutte le unità oggetto di studio ($N$), che può essere molto grande o infinito. Poiché l'analisi censuaria è spesso impraticabile per costi o tempo, si utilizza un campione ($n$), ovvero un suo sottoinsieme. Un campione deve essere rappresentativo e ottenuto tramite casualità. Il campionamento casuale semplice garantisce che ogni unità e ogni campione di dimensione $n$ abbiano la stessa probabilità di essere selezionati. Il campionamento sistematico prevede invece la selezione di un'unità ogni $j$-mo elemento, dove $j = \frac{N}{n}$. Se $N=5000$ e $n=100$, allora $j=50$; si sceglie un numero casuale tra $1$ e $50$ (es. $20$) e si selezionano le posizioni $20, 70, 120, \dots$ sino a raggiungere $100$ unità. Un parametro è una caratteristica specifica della popolazione, mentre una statistica è una caratteristica del campione (es. l'età media osservata in $500$ elettori su milioni).

Tipologie di Errore e Classificazione delle Variabili

Gli errori campionari derivano dall'osservazione di un sottoinsieme limitato della popolazione. Gli errori non campionari possono verificarsi anche nei censimenti e includono: 1. Campionamento di una popolazione non di riferimento (es. il caso Literary Digest del 1936 che predisse erroneamente la vittoria di Alfred Landon su Roosevelt perché basato su liste telefoniche e registri automobilistici, sottostimando i meno abbienti); 2. Risposte imprecise o false (specialmente su temi sensibili come i furti dei dipendenti); 3. Mancate risposte, che riducono la dimensione campionaria e introducono distorsioni.

Le variabili si distinguono in categoriche (risposte per gruppi, es. "Sì/No", genere, stato civile) e numeriche. Queste ultime si dividono in discrete (risultato di un conteggio, es. numero di iscritti) e continue (risultato di misurazione, es. altezza, peso, tempo). Secondo Stanley Smith Stevens (1947), i livelli di misurazione sono: nominale (etichette arbitrarie, es. genere), ordinale (ordine gerarchico senza distanza misurabile, es. giudizio sufficiente/buono), a intervallo (ordine e distanza da un'origine arbitraria, es. gradi Celsius o date storiche) e di rapporto (ordine e distanza da uno zero assoluto, es. peso, età).

Statistica Descrittiva e Rappresentazioni Grafiche

La statistica descrittiva sintetizza i dati tramite grafici e tabelle. Per le variabili categoriche si usano diagrammi a barre (per evidenziare le frequenze), diagrammi a torta (per le proporzioni), e diagrammi di Pareto. Le serie storiche descrivono dati raccolti nel tempo e vengono rappresentate con grafici a spezzata (es. tassi di cambio EUR/USD o traffico social settimanale). Per le variabili numeriche si costruiscono distribuzioni di frequenze raggruppate in $k$ classi di ampiezza $w = \frac{\text{Valore Massimo} - \text{Valore Minimo}}{k}$. Le classi devono essere collettivamente esaustive e mutuamente esclusive. Altri strumenti includono l'istogramma (dove l'area è proporzionale alla frequenza), l'ogiva (curva delle frequenze cumulate) e il diagramma ramo-foglia (stem-and-leaf).

Misure di Tendenza Centrale, Posizione e Variabilità

Le misure di tendenza centrale includono la media aritmetica (μ=xiN\mu = \frac{\sum x_i}{N} per la popolazione, xˉ=xin\bar{x} = \frac{\sum x_i}{n} per il campione), la mediana (valore centrale in una serie ordinata) e la moda (valore più frequente). In distribuzioni asimmetriche positive (oblique a destra), la media è superiore alla mediana. Le misure di posizione includono i quartili (Q1,Q2,Q3Q_1, Q_2, Q_3) e i percentili, calcolati tramite interpolazione lineare: Q1=posizione 0.25(n+1)Q_1 = \text{posizione } 0.25(n+1). I "cinque numeri di sintesi" sono: Minimo, Q1Q_1, Mediana (Q2Q_2), Q3Q_3, Massimo, visualizzati nel box-and-whisker plot.

La variabilità è misurata dal campo di variazione (Massimo - Minimo), dalla differenza interquartile (IQR=Q3Q1IQR = Q_3 - Q_1), dalla varianza (s2=(xixˉ)2n1s^2 = \frac{\sum(x_i - \bar{x})^2}{n-1} per campioni) e dallo scarto quadratico medio (s=s2s = \sqrt{s^2}). Il coefficiente di variazione (CV=sxˉ×100%CV = \frac{s}{\bar{x}} \times 100\%) permette confronti tra popolazioni con scale diverse. La disuguaglianza di Chebychev afferma che per ogni distribuzione, la percentuale di dati nell'intervallo μ±kσ\mu \pm k\sigma è almeno 11k21 - \frac{1}{k^2}. La regola empirica per distribuzioni campanulari prevede invece circa il 68%68\%, 95%95\% e 99.73%99.73\% dei dati entro 1, 2 e 3 deviazioni standard.

Relazioni tra Variabili e Regressione Lineare

La covarianza misura la relazione lineare tra due variabili: Cov(x,y)=(xixˉ)(yiyˉ)n1Cov(x,y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n-1}. Il coefficiente di correlazione lineare (rr) standardizza la covarianza tra 1-1 e +1+1. Se r=0r=0, non c'è relazione lineare. La retta di regressione minimizza la somma dei quadrati dei residui: y=b0+b1xy = b_0 + b_1x, dove b1=Cov(x,y)sx2b_1 = \frac{Cov(x,y)}{s_x^2} è la pendenza e b0=yˉb1xˉb_0 = \bar{y} - b_1\bar{x} è l'intercetta. Esempio: nella Rising Hills Manufacturing, ogni operaio aggiuntivo (b1=2.545b_1=2.545) incrementa la produzione oraria di circa $2.5$ tavoli.

Teoria della Probabilità e Bayes

Un esperimento aleatorio produce risultati incerti raccolti nello spazio campionario ($S$). Gli assiomi della probabilità stabiliscono che 0P(A)10 \le P(A) \le 1 e P(S)=1P(S)=1. La regola additiva per eventi non escludentesi è P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B). La probabilità condizionata è P(AB)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)}. Due eventi sono indipendenti se P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B). Il Teorema di Bayes permette di aggiornare probabilità a priori in seguito a nuove informazioni: P(BA)=P(AB)P(B)P(A)P(B|A) = \frac{P(A|B)P(B)}{P(A)}. Esempio: in un test antidoping con il $10\%$ di atleti dopati, sensibilità e specificità del $90\%$, la probabilità che un atleta positivo sia realmente dopato è del $50\%$.

Variabili Aleatorie Discrete e Distribuzioni Fortunate

Una variabile aleatoria discreta ha un valore atteso E(X)=xP(x)E(X) = \sum xP(x) e una varianza σ2=(xμ)2P(x)\sigma^2 = \sum(x-\mu)^2P(x). La distribuzione binomiale descrive $n$ prove indipendenti con probabilità di successo $p$: P(x)=(nx)px(1p)nxP(x) = \binom{n}{x} p^x (1-p)^{n-x}. Media e varianza sono μ=np\mu = np e σ2=np(1p)\sigma^2 = np(1-p). La covarianza tra due variabili aleatorie è Cov(X,Y)=E[(XμX)(YμY)]Cov(X,Y) = E[(X-\mu_X)(Y-\mu_Y)]. In finanza, un portafoglio W=aX+bYW = aX + bY ha varianza Var(W)=a2σX2+b2σY2+2abCov(X,Y)Var(W) = a^2\sigma_X^2 + b^2\sigma_Y^2 + 2abCov(X,Y). La correlazione negativa tra titoli riduce il rischio complessivo (hedging).

Variabili Continue e Distribuzione Normale

Una variabile continua è definita da una funzione di densità f(x)f(x) dove l'area sottesa rappresenta la probabilità. La distribuzione uniforme ha densità costante f(x)=1baf(x) = \frac{1}{b-a}. La distribuzione normale N(μ,σ2)N(\mu, \sigma^2) è simmetrica e campanulare. La normale standard ZN(0,1)Z \sim N(0, 1) si ottiene con Z=Xμσ\text{Z} = \frac{X-\mu}{\sigma}. Se la variabile non è nota come normale, il Teorema del Limite Centrale (CLT) afferma che la media campionaria Xˉ\bar{X} di un campione grande (n25n \ge 25) tende comunque a distribuirsi normalmente con media μ\mu e deviazione standard σn\frac{\sigma}{\sqrt{n}}. Questo è alla base delle carte di controllo industriale (es. monitoraggio del peso delle confezioni di corn-flakes a ±3\pm 3 deviazioni standard).

Stima e Verifica delle Ipotesi

Uno stimatore è non distorto se il suo valore atteso è pari al parametro. La media campionaria è uno stimatore non distorto di μ\mu. L'intervallo di confidenza per μ\mu con σ\sigma nota è xˉ±zα/2σn\bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}. Se σ\sigma è ignota, si usa la distribuzione t di Student con n1n-1 gradi di libertà: xˉ±tn1,α/2sn\bar{x} \pm t_{n-1, \alpha/2} \frac{s}{\sqrt{n}}. Per le proporzioni, l'intervallo è p^±zα/2p^(1p^)n\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}.

La verifica di ipotesi contrappone l'ipotesi nulla (H0H_0) all'ipotesi alternativa (H1H_1). L'errore di I tipo (α\alpha) è rifiutare H0H_0 quando è vera; l'errore di II tipo (β\beta) è non rifiutare H0H_0 quando è falsa. Il pp-value è il più piccolo livello di significatività per cui H0H_0 può essere rifiutata. Un test è unilaterale se H1:μ>μ0H_1: \mu > \mu_0 o μ<μ0\mu < \mu_0, bilaterale se H1:μμ0H_1: \mu \neq \mu_0. La potenza del test (1β1-\beta) misura la capacità di rifiutare correttamente un'ipotesi nulla falsa.