Statistica: Concetti Fondamentali e Metodologie
Statistica: Introduzione
- La statistica è un insieme di metodi e tecniche per:
- La conoscenza quantitativa di fenomeni.
- L'analisi e la comprensione di fenomeni singoli o congiunti.
- Fenomeni che si manifestano con diverse espressioni osservabili, totalmente o parzialmente.
- Etimologia: Deriva da "Stato", usata per decisioni razionali.
- Nel 1800, si caratterizza come metodo scientifico con l'introduzione del calcolo delle probabilità.
- Fondatori del ragionamento statistico moderno: Crearson, Ficher, Neyman.
Il Metodo Statistico
- Consiste nel processo logico di:
- osservazione -> analisi -> comprensione.
- Raccolta dati -> elaborazione -> trasformazione in informazioni.
- Trasformazione di dati muti (isolati) in informazioni utilizzabili attraverso la relazione con altri dati.
Nozioni di Base
- Fenomeni statistici: i fenomeni di interesse (es: il reddito) -> X, Y, Z..
- Unità statistiche: i supporti fisici o teorici delle diverse manifestazioni di un fenomeno statistico (es: individui).
- Manifestazioni statistiche: le singole determinazioni del fenomeno (es: il reddito di Tizio) ->X, V, Z…
- Popolazione statistica/universo di riferimento: l'insieme delle unità statistiche sulla quali interessa studiare il fenomeno -> U
- Numerosità/dimensione di U: il numero di unità statistiche che compongono la popolazione statistica di riferimento ->V di base
Statistica Descrittiva
- Descrive il comportamento di X su U.
- La rilevazione è esaustiva (censuaria) di U.
- Si dispone di tutti gli V dati osservati presso tutte le unità statistiche.
- Può essere:
- Univariata: descrive un solo fenomeno su U.
- Bivariata: studia le relazioni tra due fenomeni congiuntamente rilevati su U.
- Multivariata: descrive il comportamento congiunto di più di due fenomeni rilevati su U studiandone le relazioni.
Statistica Inferenziale
- Se la rilevazione è una parte della popolazione -> stat inferenziale ↳ N + n (campione faccio un campionamento - deduco poix tutta - indico conhminuscola I la popolazione statisticamente un campione dovrà' essere h (mimo 30 osservation)
- Le unità del campione hanno gli stessi Attributi della pop . · Stessa Frazione F/m o provenienti S CModalità Istaciettatore che lamia Variabile può escorete)
Classificazione dei Fenomeni Statistici
- Fenomeni Quantitativi e qualitativi
Fenomeni Qualitativi
- Si manifestano attraverso attributi o categorie, qualità.
- Esempi: genere, titolo di studio, squadra tifata.
- Ordinali: attributi e categorie ordinabili (es: scuola primaria < secondaria < università).
- Categoriali: senza un criterio oggettivo (ma solo personale) (es: città di residenza).
Fenomeni Quantitativi
- Si manifesta attraverso numeri e misure, quantità.
- Esempi: numero di accessi, temperatura massima.
- Discreti: si possono contare (es: numero esami registrati, numero di furti).
- Continui: si possono misurare (es: peso corporeo, temperatura, resistenza alla tensione).
- E come esempio , il Reddito, l'Altezza · può prendere qualsiasi Misura.
Esercizi
- Esempio 1: Proprietaria di negozio di coiffeur interessata al colore più richiesto nel 2009.
- U = tutte le persone che si sono recate a fare le tinte.
- N = 288.
- u = persone che hanno fatto le tinte.
- Fenomeno/variabile = colore dei capelli enterresse C ↑ modalità di interesse (x) = biondo , rosso , castano , bruno".
- Esempio 2: Nonna Elisabetta vuole fare un golfino per i suoi 9 nipotini
- U = ninotini di nonni Elisabetta.
- N = 9 ".
- u = Mipotini di nonna Elisabetta a cui fa Il magione.
- X = la misura del girovita dei nipotini espressa (n (m) ↑ ↳ variabile X = X ,0, …. Xg" quantitativa ↓ CONTINUO indiava da 1 a 9
La Rilevazione
- È il processo di creazione dei dati.
- Consiste nell'osservare o misurare e registrare le manifestazioni di X.
- Principi:
- Esaustività: la scala delle modalità deve prevedere tutte le possibili manifestazioni di X su U (es: risposta "Altro" in un questionario).
- Mutua esclusività: le modalità si escludono a vicenda, senza sovrapposizioni.
Classificazione dei Fenomeni Statistici (Dettaglio)
- Fenomeni quantitativi:
- Discreti: si rilevano mediante conteggio (es: numero di esami sostenuti), con modalità x di solito numeri interi.
- Il numero k di modalità può essere finito (es: numero di esami) o infinito (es: numero di accessi al sito).
- Continui: si rilevano mediante misurazione (es: peso, temperatura), con modalità che sono intervalli e k sempre infinito.
- Scale di modalità:
- Qualitative: attributi o categorie (es: genere).
- Quantitative: numeri (es: età, altezza).
Classificazione delle Scale di Modalità (Continuazione)
- Scale qualitative:
- Sconnesse: solo relazioni di uguaglianza (=) o differenza (#) (es: genere).
- Ordinali: attributi o categorie ordinabili (es: titolo di studio).
- Scale quantitative:
- Origine assoluta (scale rapporto): lo 0 indica l'assenza del fenomeno (es: misura quantitativa dei credenti).
- Origine convenzionale (scale non rapporto): lo 0 ha significato convenzionale (es: la temperatura).
Notazione
- k = numero di diverse modalità previste dalla scala.
- i = indice per distinguere le diverse modalità.
- Esempio 1: genere -> k= 2, ×="maschio", X,="femmina".
- Esempio 2: esito partita di calcio -> k=4; ×="vittoria", X›="sconfitta", x;="pareggio", ×="rinviata"
Esercizi (Continuazione)
- Esercizio 1: numero di figli per famiglia degli immigrati regolari in Italia.
- Variabile X: “numero di figli” -> Variabile Quantitativo Discreto. Uso una scala Quantitaviva ASSOLUTA. lo Zero -> assenza del fenomeno\variabile.
- U”tutti gli immigrati regolari in Italia”.
- Caso n. Due età degli immigrati maschi regolari in Italia Popolazione U: maschi regolari in Italia Variabile X: eta dei maschi regolari in Italia —> Variabile Quantitativa Discreta Uso una scala quantitativa CONVENZIONALE • lo zero è posto in modo convenzionale.
- Anno di nascita-> quantitativa discreta
- Voto in matematica -> quantitativa discreta con scala convenzionale
- Voto di laurea -> quantitativa discreta con scala convenzionale
Dati grezzi
- Il risultato della rilevazione del fenomeno X sulla popolazione U di numerosità N è un insieme di N osservazioni.
- Ciascuna osservazione coincide con una (e una sola) delle k modalità XI previste dalla scala utilizzata.
- Esempio: comportamento sessuale degli studenti universitari: fenomeno X -> quantitativo e discreto, le sue modalità x, sono i numeri interi 0,1,…;
- la scala delle modalità è quantitativa rapporto.
- U: gruppo di studenti e studentesse universitarie italiane N = 60, X: numero di partner sessuali degli ultimi 12 mesi.
Distribuzioni di Frequenza
- Obiettivo: far emergere dai dati informazioni utili a descrivere e spiegare il comportamento di X su U.
- Frequenza assoluta: numero di volte in cui una modalità x, è stata rilevata in U, la somma riproduce la numerosità N di U
- Distribuzione di frequenza: si costruisce per conteggio e organizza i dati in tabella.
Le Variabili Statistiche
- -> X indica : sia il fenomeno di interesse (prima di essere rilevato) sia la corrispondente variable Statistica (dopo la rilevazione e la strutturazione dei dati grezzi).
- Costruendo le frequenze relative -> Ex, Fil i = 1 , . . . . , iN (grandel 8 8 ↳ = delle Pi = 1
Frequenze Cumulate e Densità di Frequenza
- Le frequenze cumulate indicano quante unità statistiche manifestano una modalità non superiore a una certa x,.
- Fenomeni quantitativi continui: le modalità x1,x2… sono intervalli [x, , X,).
- La distribuzione delle frequenze all'interno degli intervalli è ignota.
- Per superare l'ostacolo possiamo ricorrere ad ipotesi in sostituzione delle informazioni ignote.
- Densità di frequenza= frequenza dell'intervallo depurata dall'influenza dell'ampiezza dell’intervallo.
- L’ampiezza si misura facendo x - X, ' # e O, Maiuscolo 4 IN Un certo intervallo S I S - SOMMG F. ASS . - SOMMAF.
Ipotesi Comuni
- Valore centrale: a tutte le f, unità statistiche che ricadono nell'intervallo viene assegnato il valore centrale.
- Distribuzione uniforme: le f unità statistiche vengono distribuite in modo equidistante nell'intervallo.
- Si supera il problema dell'ignota distribuzione delle frequenze all'interno dell'intervallo MA si perde la natura continua rappresentata dagli intervalli.
Rappresentazioni Grafiche
- Alternative alle tabelle, preferibili se k è grande.
- Fenomeni qualitativi: il grafico è un semplice disegno (barre, torte) e l'altezza/lunghezza delle barre o la dimensione dello spicchio danno un'idea della frequenza associata a ciascuna categoria.
- Fenomeni quantitativi: le x, oltre alle fi , sono dei numeri, si costruiscono dei diagrammi cartesiani, sull'asse delle ascisse si mettono le x e Su quello delle ordinate le f, o le pi
- Fenomeni discreti: il diagramma più efficace è quello a bastoncini.
- Fenomeni continui: se si fa l'ipotesi della distribuzione omogenea, la frequenza viene rappresentata da un'area, con un istogramma.
Esercizio
- Costruire la variabile statistica classificando il fenomeno nei seguenti intervalli: (0F- 2), (2 + 4), (4 +- 6), (6 +- 8).
- Fornire la distribuzione di frequenze relative e rappresentarla graficamente.
- Fornire la distribuzione di frequenze cumulate e commentarle.
Valori Medi
- Moda: modalità con la frequenza più elevata (calcolabile per qualsiasi X).
- Se X è continua, si usa la densità di frequenza per identificare l'intervallo modale.
- Campi di utilizzo della Mediana: fenomeni almeno ordinali (qualitativi ordinali o quantitativi) -> ES comune di residenza non si puo utilizzare la mediana, perchè non c’è un valore secondo cui si può organizzare secondo un ordine
- Mediana: modalità che occupa la posizione centrale nell'ordinamento (50% dei valori inferiori o uguali).
- Si individua scorrendo le frequenze cumulate relative fino a raggiungere o superare 0.5.
Sintesi in Numeri e Box Plot
- Per un fenomeno almeno ordinale, la v.s. può essere descritta da:
- X Minimo
- I quartile: X0.25 -> cade nel primo 25 % dei dati
- Mediana (secondo quartile che include il 50%) X0.5
- I quartile: X0.75
- X Massimo
- Media aritmetica: somma dei prodotti modalità x frequenza, diviso la somma frequenza.
- Mosa= media = Mediana—> i dati sono distribuiti in modo omogeneo e sono simmetrici
- Se la media aritmetica è fortemente influenzata dai valori estremi (outliers). La mediana è più "stabile"
- Conclusione:
- media = mediana
- media > mediana X
- se media - mediana - - 11
Principi di Scelta dei Valori Medi
- Valore interno al range dei dati.
- Omogeneità: equivarianza rispetto a variazioni di scala.
- Linearità (solo media aritmetica): equivarianza rispetto a trasformazioni lineari.
- Associatività: la media della popolazione è la media delle medie dei sottogruppi.
Funzione di Perdita
- Anziché pensare alle proprietà del valor medio, pensiamo alla perdita di informazioni dovuta alla sintesi dell'intera vs. nell'unico valor medio
- -> Guardiamo alla distanza tra le modalità osservate e il valor medio. se i dati sono simmetrici: si può calcola il valore come riferimento la mediana che la media per calcolare la funzione di perdita
Minimizzazione della Funzione di Perdita
- Il valor medio che minimizza L è la media aritmetica Elevare al quadrato ha l'effetto di enfatizzare le differenze, questa funzione di perdita va bene quando:
- le differenze piccole sono poco importanti le grandi differenze sono molto importanti
- Invece di considerare una funzione di perdita basata sulle distanze tra i valori osservati X, e il valor medio, adottiamo una funzione di perdita che consideri un particolare aspetto del fenomeno X che interessa in modo speciale
- Attenzione: nelle medie di Chisini non è garantita l'internalità!
Variabilità
- Attitudine di un fenomeno quantitativo a manifestarsi, sulle N unità di U, con modalità tra loro diverse e «distanti».
- Assume valore 0 -> in assenza di variabilità (unica modalità, obvvero v.s. costante o degenere)
- Assume valori positivi -> in presenza di variabilità (modalità molteplici e differenti)
- Cresce con il crescere della variabilità
- Una misura (assoluta) della variabilità di X su U è un indice sintetico con le seguenti caratteristiche:
Misure di Variabilità
- Range: <> -> È una misura di variabilità grossolana, ed è molto sensibile alla presenza di valori anomali (outliers).
- Differenza interquartile: <> sensibile alla presenza di valori anomali. Sono informazioni disponibili nei box-plot, che ci danno quindi anche una misura della variabilità della v.s.
- Deviazione Standard: - Dal momento che quello che interessa è la distanza, e non il segno, gli scarti dalla media vengono elevati al quadrato.
Coefficiente di Variazione e Varianza
- Coefficiente di Variazione e Varianza -> è più conveniente da usare in linea teorica, non per misurare la variabilità ma per perseguire altri scopi descrittivi e interpretativi.
Tabella a Doppia Entrata
- Tabella a doppia entrata -> serve a vedere le caratteristiche di una classe: Quante studentesse hanno la stessa altezza Quanti maschi e femmine ci sono. Con Frequenze marginali =frequenze che riguardano I fenomeni X, Y singolarmente e separatamente. Frequenze congiunte = La frequenza con cui si manifesta ciascuna coppia (xi, yj) all'ncrocio fra la i-esima riga e la j- esima colonna; -> Per effetuare l'analisi bivariate, il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata
Inferenza Statistica
- Inferenza Statistica -> L'inferenza statistica mi permette di trarre una conclusione su una parte di popolazione e espanderla per tutta la popolazione.
- Per fare buona inferenza statistica è allora strategico che il campione abbia la caratteristica della rappresentatività, cioè sia una immagine in scala ridotta ma possibilmente fedele dell'intera U.
- Al posto delle frequenze (ignote) si parla quindi di probabilità dalla variable Statistica si passa alla variabile casuale In questo caso si utilizza un campione causale.
Concetti Fondamentali
- La probabilità va da zero a 1.
- uno degli eventi elementari necessariamente sì verifica allora è l'evento certo, l'evento impossibile.
- Se è uscita la faccia col 4 (o equivalentemente col 2 o col 6) allora -> l'evento E = (2. 4. 6} è verificato perché 4 appartiene ad E: se invece è uscita la faccia col 3 (o equivalentemente con l'1 o col 5) allora -> l'evento E = (2. 4. 6) non è verificato perché 3 NON APPARTIENE ad E.
Statistica Descrittiva vs Inferenza
- Statitistica descrittiva / Inferenza statistica.
- Variabile statistica / variabile casuale ->Trasformo gli eventi in simboli in numeri per poi usarli come valori per fare i calcoli, Sfruttando l'analogia tra v.c. e v.s. si possono trasferire molti concetti dalla statistica descrittiva alla statistica inferenziale:
Variable casuale e tipi
- Variable casuale DISCRETA -> distribuzione binomiale / Varibile casuale CONTINUA -> distribuzione normale ogni v.c. Ha una certa distribuzione con una certa distribuzione e una certa varianza Coefficiente binomiale
Variabile Statistica
- Modalità: V.c. discreta X: valore assume un numero finito di solitamente numeri interi
- Frequenza relativa Pi -> Funzione di probabilità
- X minore o uguale un valore x Funzione cumulate relative = ripartizione +probabilità con un valore X: variable STAT variab casuali
La Distruzione Binomiale
- ha tre caratteristiche:
- 1) l'esperimento casuale consiste nell'esecuzione di n prove indipendenti in cui cioè l'esito di ciascuna prova non influenza l'esito della prova successiva
- 2) Ciascuna prova può avere come esito uno (e soltanto uno) di 2 eventi fra loro contrari ed esaustivi («successo» ed «insuccesso», con riferimento a fenomeni dicotomici)
- 3) .E' nota e costante in ciascuna prova la probabilità p del successo • n( quante volte faccio la prova) e p sono i parametri della v.c. binomiale • Il generico risultato della serie di n prove (il generico evento elementare) è binomiale • Una particolare v.c. discreta, con le seguenti tre caratteristiche:
La Variabile Casuale Continua
- Le v.c. continue assumono infiniti valori -> Per identificarli, in analogia con le v.s. continue, bisogna fare riferimento ad intervalli. In questo caso si parla in questo caso di funzione di densità di probabilità -> 0(x) (in analogia con le densità di frequenza relative di una v.s.).
Tavole e Probabilità
- Tipi di probabilità:
- Regola additiva: riferimento a due eventi indipendenti e il successo di almeno un evento: P(A o B) = P(A) + P (B)
- Regola moltiplicativa: riferimento a due eventi indipendenti e il successo di entrambi gli eventi: P(A e B) = P(A) x P(B)
- Probabilità condizionata: riferimento a due eventi dipendenti e al successo di entrambi gli eventi:
- varia da 0 (evento impossibile)
- a 1 (evento certo)
La Stima Puntuale e Intervallare
- si calcola una stima di un intervallo IC sono sicura che la stima di un punto cade in un intervallo che va da un valore minimo ad un massimo -> intervallo di confidenza
- Faccio una stima PUNTUALE +/- l’ERRORE e Gli IC sono però calcolabili solo se vale almeno una delle due seguenti condizioni:
- La funzione di probabilità o di densità di X è nota (in genere, distribuzione normale) oppure è ipotizzabile con un elevato grado di sicurezza (popolazione normale)
- La numerosità del campione n è sufficientemente grande perché valgano opportuni teoremi di teoria delle probabilità (grandi campioni)
Estremi per trovare l'Intervallo
- Estremi l’intervallo di confidenza: Per la media: / Per la proporzione:
- se la Géspecificata -6 7 E-wr ; F + errore: se la Gnon la conosco, uso z valore critico standard, Deviazione Standard del Campione
- Valore critico standardizzato -media (calcolare/data)
- valore medio campioni: se non si conosce utilizzare La varianza data
Test Statistico
- L'obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all'ignoto parametro, L'obiettivo è invece utilizzare dati campionari per stabilire se un'ipotesi, quale essa sia, possa essere «ragionevolmente» accettata o rifiutata (in termini probabilistici.
- Accettare o rifiutare H. sulla base dei dati campionari comporta inevitabilmente il rischio di commettere un errore. Errore di l specie: rifiutare Ho quando Ho e vera Errore di II specie: accettare Ho (ipotesi iniziale) quando Ho è falsa.
Come leggere i dati? + Test
- formulare quale é la ipotesi nulla e quella alternative Distinguere dal testo del esercizio quale é il livello del errore ALFA (5%) Scegliere il TEST STATUSTICO -> Statistica più adatto al nostro Caso
- paragonare il valore osservato (calcolato da noi) con quello teorico critico (delle tavole )
- 1)se il nostro calcolato é maggiore di quello critico -> si accetta l’ipotesi ALTERNATUVA perché
- 2)se il nostro calcolato é minore rispetto a quello critico della tavola-> si dice che non ho abbastanza informazioni per rifiutare la ipotesi nulla, quindi resto nella ipotesi nulla
Dove vedere i dati? Tavole
- 1) Loro il valore critico nella tavola tet (2= 0 , 05 2 = 0 , 025 -valore osservato
Regressione
- regressione -> testare come si influenzano le variabili a vicenda , si utilizza il METODO DEI MINIMI QUADRATI = Disegnala la Retta+ Variable: B0 : Intercetta +D1 P = Pendenza. Intercetta+ retatcrescita/ pendenza crescita La intercetta = P -P =valori medi