1/72
Flashcard Q&A in italiano per ripassare concetti chiave di statistica descrittiva, probabilità, inferenza, test d’ipotesi e regressione.
Name | Mastery | Learn | Test | Matching | Spaced |
---|
No study sessions yet.
Qual è la differenza fondamentale fra Statistica Descrittiva e Statistica Inferenziale?
La Statistica Descrittiva riassume e presenta i dati (tabelle, grafici, misure sintetiche), mentre la Statistica Inferenziale utilizza un campione per trarre conclusioni sulla popolazione con un certo grado di verosimiglianza.
Che cosa si intende per popolazione e campione?
La popolazione è l’insieme completo delle unità statistiche di interesse; il campione è il sottoinsieme di unità effettivamente osservato e analizzato.
Cos’è una variabile qualitativa e quali grafici la rappresentano di solito?
È una variabile che assume modalità non numeriche (categorie); si rappresenta con diagrammi a barre, grafici a settori o Pareto.
Qual è la differenza fra scala nominale e scala ordinale?
Nominale: solo etichette senza ordine (es. brand); Ordinale: categorie ordinate ma senza distanza misurabile (es. livelli di soddisfazione).
Quali sono le due sottoclassi delle variabili quantitative?
Discrete (conteggio) e continue (misurazione).
Che cos’è una distribuzione di frequenza assoluta?
Tabella che riporta quante volte ogni modalità/valore compare nel campione.
Come si calcola la frequenza relativa?
f_rel = frequenza assoluta / n (dimensione campione).
Perché si costruisce un istogramma?
Per rappresentare graficamente la distribuzione di frequenza di una variabile quantitativa continua tramite classi di uguale ampiezza.
Definisci media aritmetica semplice.
Somma di tutti i valori divisa per il numero di osservazioni: (\bar x = \sum x_i / n).
Perché la media non è un indicatore robusto?
È influenzata da valori anomali (outlier) che possono spostarla notevolmente.
Che cos’è la mediana e quando è preferibile alla media?
Il valore che divide l’ordinamento dei dati in due parti uguali (50% sopra, 50% sotto); è preferibile in presenza di forti asimmetrie o outlier.
Che cosa rappresenta la moda?
Il valore/modalità che compare con maggiore frequenza in una distribuzione.
Come si calcola il range e qual è il suo limite principale?
Range = Xmax − Xmin; usa solo due valori, quindi non descrive la dispersione interna e non è robusto.
Formula della varianza campionaria e suo significato.
(s^2 = \sum (x_i-\bar x)^2 / (n-1)); misura la dispersione media quadratica dei dati attorno alla media.
Cosa indica lo scarto quadratico medio (deviazione standard)?
Radice della varianza, espressa nelle stesse unità della variabile, misura la dispersione media rispetto alla media.
Che cos’è il coefficiente di variazione?
CV = s / (\bar x) (spesso in %); esprime la dispersione relativa rispetto alla media, utile per confronti tra variabili con scale diverse.
Qual è la differenza tra distribuzione simmetrica e asimmetrica?
In una distribuzione simmetrica media = mediana; in quella asimmetrica i dati sono sbilanciati a sinistra (negativa) o a destra (positiva).
Quali cinque numeri compongono il box-plot?
Minimo, Q1 (25°), Q2 (mediana), Q3 (75°), massimo.
A cosa serve la covarianza?
Misura se due variabili tendono a variare insieme (positiva, negativa o nulla) ma dipende dalle unità di misura.
Come si interpreta il coefficiente di correlazione r?
Varia fra −1 e +1. Valore assoluto vicino a 1 indica forte relazione lineare (positivo o negativo), vicino a 0 indica assenza di relazione lineare.
Che cosa rappresenta la probabilità in senso classico?
Rapporto fra numero di casi favorevoli e numero di casi possibili, assumendo risultati equiprobabili.
Differenza fra evento elementare, congiunto e complementare.
Elementare: singolo risultato; congiunto: intersezione di eventi; complementare: insieme dei casi in cui l’evento non si verifica.
Formula della probabilità condizionata di A dato B.
P(A|B) = P(A∩B) / P(B) con P(B)>0.
Che cos’è la distribuzione binomiale e quali sono i suoi parametri?
Numero di successi in n prove indipendenti con probabilità di successo p; parametri n e p.
Media e varianza di una Bin(n,p).
Media = n·p ; Varianza = n·p·(1−p).
Quando si usa la distribuzione di Poisson?
Per contare il numero di eventi rari che avvengono in un intervallo di tempo/spazio fisso con media λ e indipendenza degli eventi.
Funzione di probabilità della Poisson.
P(X = k) = e^{−λ} λ^k / k! per k = 0,1,2,…
Caratteristiche della distribuzione uniforme continua (a,b).
Tutti i valori fra a e b sono equiprobabili; densità f(x)=1/(b−a); media (a+b)/2; varianza (b−a)^2/12.
Proprietà principali della distribuzione normale.
Simmetrica, campanulare, descritta da media μ e deviazione standard σ; 68.3% dei dati entro ±1σ, 95.5% entro ±2σ, 99.7% entro ±3σ.
Che cosa significa standardizzare un valore X?
Trasformarlo in z = (X − μ) / σ per riferirsi alla normale standard N(0,1).
Enuncia il Teorema del Limite Centrale (TLC).
La media di campioni sufficientemente grandi di una popolazione con media μ e varianza σ² è approssimativamente normale, indipendentemente dalla distribuzione originale.
Come si definisce l’errore standard della media?
SE = σ / √n (o s/√n); misura la variabilità della media campionaria rispetto alla media della popolazione.
Formula dell’intervallo di confidenza per la media con σ noto (livello 1−α).
(\bar x \pm z_{\alpha/2} \cdot \sigma/\sqrt{n}).
Quando si usa la distribuzione t di Student per l’intervallo di confidenza?
Quando la deviazione standard della popolazione è sconosciuta e il campione è piccolo (n<30) o la popolazione non è sicuramente normale.
Che differenza c’è tra livello di confidenza e livello di significatività?
Il livello di confidenza (1−α) è la probabilità che l’intervallo contenga il parametro; α è la probabilità di errore di I specie nei test d’ipotesi.
Definisci errore di I specie (α) e di II specie (β).
Errore I: rifiutare H0 quando è vera; errore II: non rifiutare H0 quando è falsa.
Che cosa rappresenta la potenza di un test?
1−β, cioè la probabilità di rifiutare H0 quando H0 è falsa (capacità di individuare un effetto reale).
Quali sono i tre tipi di test sulle medie (direzione)?
Bilaterale (≠), unilaterale destro (>) e unilaterale sinistro (<).
Passaggi base di un test d’ipotesi su una media con σ noto.
1) Formulare H0 e H1. 2) Scegliere α. 3) Calcolare statistica z = (\bar x − μ0)/(σ/√n). 4) Confrontare con z critico o p-value. 5) Concludere.
Quando i campioni sono dipendenti nel confronto fra due medie?
Quando le osservazioni sono appaiate (stesso soggetto prima/dopo, coppie corrispondenti).
Formula della statistica t per differenza di medie con campioni indipendenti, σ1 e σ2 note.
z = (\bar x1 − \bar x2 − Δ0) / √(σ1²/n1 + σ2²/n2).
Che cos’è Sp (varianza pool)?
Media ponderata delle due varianze campionarie usata nel test t per due medie indipendenti con varianze assumibili uguali.
Quando si usa il test z per proporzioni?
Quando n·p e n·(1−p) sono entrambi ≥ 5 (o 10) e si confronta una proporzione campionaria con un valore ipotizzato o si confrontano due proporzioni.
Stima puntuale della proporzione campionaria.
(\hat p = X / n) dove X è il numero di successi osservati.
Intervallo di confidenza (Wald) per una proporzione.
(\hat p \pm z_{\alpha/2} \sqrt{\hat p(1-\hat p)/n}).
Formula dell’intervallo di confidenza per la differenza tra due proporzioni.
((\hat p1-\hat p2)) ± z{α/2} √[(\hat p1(1-\hat p1)/n1 + \hat p2(1-\hat p2)/n_2)].
Cos’è la regressione lineare semplice?
Modello che descrive la relazione lineare fra una variabile indipendente X e una dipendente Y: Y = β0 + β1 X + ε.
Significato di β1 (coefficiente angolare).
Stima la variazione media di Y per variazione unitaria di X.
Come si stimano β0 e β1?
Con il metodo dei minimi quadrati, minimizzando la somma dei quadrati degli errori (residui).
Che cosa misura R²?
La proporzione di variabilità di Y spiegata dal modello di regressione (0 ≤ R² ≤ 1).
Scrivi la formula di R².
R² = SSR / SST = 1 − SSE / SST, dove SSR è somma dei quadrati spiegati, SSE residui, SST totali.
Quali sono le quattro assunzioni classiche della regressione lineare?
1) Linearità, 2) Indipendenza degli errori, 3) Normalità degli errori, 4) Omoschedasticità (varianza costante).
Che cos’è l’errore standard della stima Syx?
(\sqrt{SSE/(n-2)}); indica lo scostamento medio dei valori osservati da quelli stimati dal modello.
Come si interpreta un coefficiente di correlazione r = -0,8?
Forte relazione lineare negativa: all’aumentare di X, Y tende a diminuire in modo abbastanza regolare.
Qual è la differenza fra covarianza e correlazione?
La covarianza dipende dall’unità di misura, la correlazione è la covarianza normalizzata e varia fra −1 e +1.
In un test t-Student quali sono i gradi di libertà per una media?
df = n − 1.
Come si calcola il p-value in un test bilaterale su z?
p-value = 2 · P(Z ≥ |z_obs|).
Definizione di campionamento casuale semplice.
Ogni unità della popolazione ha la stessa probabilità di essere inclusa nel campione e le combinazioni di n unità sono equiprobabili.
Perché il margine di errore di un I.C. diminuisce se aumenta n?
Perché l’errore standard (σ/√n) si riduce con la radice della dimensione del campione.
Che cosa si intende per variabile casuale discreta semplice?
Una variabile che può assumere un numero finito (o numerabile) di valori, ciascuno con probabilità assegnata.
Funzione di densità della normale standard.
f(z) = (1/√(2π)) · e^{−z²/2}.
Perché si usa la distribuzione t invece della z con varianza ignota e campione piccolo?
Perché la stima s introduce incertezza aggiuntiva e la t tiene conto di questa maggiore variabilità tramite code più pesanti.
Come si ottiene il limite critico C in scala X in un test unilaterale sinistro?
C = μ₀ − z_{α} · σ/√n; se (\bar x < C) si rifiuta H0.
Che cosa indica l’approccio bayesiano alla probabilità?
Considera la probabilità come grado soggettivo di credenza, aggiornato con l’evidenza tramite il Teorema di Bayes.
Esempio di evento congiunto nel diagramma di Venn (televisori).
A = intenzione di acquisto, B = acquisto effettivo; A∩B rappresenta i soggetti che avevano pianificato e hanno acquistato.
Formula generale per la varianza di una variabile casuale discreta.
Var(X) = Σ (xi − E[X])² · P(X = xi).
Che cosa significa omoschedasticità violata (eteroschedasticità)?
La varianza degli errori non è costante al variare di X; i residui mostrano ventaglio allargato o ristretto.
Quando si usa il metodo delle differenze appaiate (t per campioni dipendenti)?
Quando si misura la stessa unità prima e dopo un trattamento e si vuole testare la media della differenza.
Definizione di distribuzione campionaria della media.
Distribuzione di tutte le possibili medie ottenute da campioni di grandezza n estratti dalla stessa popolazione.
Perché β0 a volte non è interpretabile in un contesto di regressione?
Può corrispondere a un valore di X fuori dal range osservato o non avere significato pratico (es. negozio di area 0 m²).
Che cosa misura il p-value in un test d’ipotesi?
La probabilità, sotto H0, di ottenere un risultato almeno tanto estremo quanto quello osservato; piccolo p implica evidenza contro H0.
Quando un intervallo di confidenza per la differenza tra medie indica una differenza significativa?
Quando l’intervallo non contiene lo zero (bilaterale) oppure tutto l’intervallo è maggiore o minore di zero (unilaterale).
Qual è l’obiettivo principale dell’inferenza statistica?
Stimare e testare i parametri della popolazione basandosi sui dati campionari, quantificando l’incertezza.