Statistica: Concetti Fondamentali e Metodologie

Statistica: Introduzione

La statistica è un insieme di metodi e tecniche per:
- La conoscenza quantitativa di fenomeni.
- L'analisi e la comprensione di fenomeni singoli o congiunti.
- Fenomeni che si manifestano con diverse espressioni osservabili, totalmente o parzialmente.
Etimologia: Deriva da "Stato", usata per decisioni razionali.
Nel 1800, si caratterizza come metodo scientifico con l'introduzione del calcolo delle probabilità.
Fondatori del ragionamento statistico moderno: Crearson, Ficher, Neyman.

Il Metodo Statistico

Consiste nel processo logico di:
- osservazione -> analisi -> comprensione.
Raccolta dati -> elaborazione -> trasformazione in informazioni.
Trasformazione di dati muti (isolati) in informazioni utilizzabili attraverso la relazione con altri dati.

Nozioni di Base

Fenomeni statistici: i fenomeni di interesse (es: il reddito) -> X, Y, Z..
Unità statistiche: i supporti fisici o teorici delle diverse manifestazioni di un fenomeno statistico (es: individui).
Manifestazioni statistiche: le singole determinazioni del fenomeno (es: il reddito di Tizio) ->X, V, Z…
Popolazione statistica/universo di riferimento: l'insieme delle unità statistiche sulla quali interessa studiare il fenomeno -> U
Numerosità/dimensione di U: il numero di unità statistiche che compongono la popolazione statistica di riferimento ->V di base

Statistica Descrittiva

Descrive il comportamento di X su U.
La rilevazione è esaustiva (censuaria) di U.
Si dispone di tutti gli V dati osservati presso tutte le unità statistiche.
Può essere:
- Univariata: descrive un solo fenomeno su U.
- Bivariata: studia le relazioni tra due fenomeni congiuntamente rilevati su U.
- Multivariata: descrive il comportamento congiunto di più di due fenomeni rilevati su U studiandone le relazioni.

Statistica Inferenziale

Se la rilevazione è una parte della popolazione -> stat inferenziale ↳ N + n (campione faccio un campionamento - deduco poix tutta - indico conhminuscola I la popolazione statisticamente un campione dovrà' essere h (mimo 30 osservation)
Le unità del campione hanno gli stessi Attributi della pop . · Stessa Frazione F/m o provenienti S CModalità Istaciettatore che lamia Variabile può escorete)

Classificazione dei Fenomeni Statistici

Fenomeni Quantitativi e qualitativi

Fenomeni Qualitativi

Si manifestano attraverso attributi o categorie, qualità.
- Esempi: genere, titolo di studio, squadra tifata.
- Ordinali: attributi e categorie ordinabili (es: scuola primaria < secondaria < università).
- Categoriali: senza un criterio oggettivo (ma solo personale) (es: città di residenza).

Fenomeni Quantitativi

Si manifesta attraverso numeri e misure, quantità.
- Esempi: numero di accessi, temperatura massima.
- Discreti: si possono contare (es: numero esami registrati, numero di furti).
- Continui: si possono misurare (es: peso corporeo, temperatura, resistenza alla tensione).
E come esempio , il Reddito, l'Altezza · può prendere qualsiasi Misura.

Esercizi

Esempio 1: Proprietaria di negozio di coiffeur interessata al colore più richiesto nel 2009.
- U = tutte le persone che si sono recate a fare le tinte.
- N = 288.
- u = persone che hanno fatto le tinte.
- Fenomeno/variabile = colore dei capelli enterresse C ↑ modalità di interesse (x) = biondo , rosso , castano , bruno".
Esempio 2: Nonna Elisabetta vuole fare un golfino per i suoi 9 nipotini
- U = ninotini di nonni Elisabetta.
- N = 9 ".
- u = Mipotini di nonna Elisabetta a cui fa Il magione.
- X = la misura del girovita dei nipotini espressa (n (m) ↑ ↳ variabile X = X ,0, …. Xg" quantitativa ↓ CONTINUO indiava da 1 a 9

La Rilevazione

È il processo di creazione dei dati.
Consiste nell'osservare o misurare e registrare le manifestazioni di X.
Principi:
- Esaustività: la scala delle modalità deve prevedere tutte le possibili manifestazioni di X su U (es: risposta "Altro" in un questionario).
- Mutua esclusività: le modalità si escludono a vicenda, senza sovrapposizioni.

Classificazione dei Fenomeni Statistici (Dettaglio)

Fenomeni quantitativi:
- Discreti: si rilevano mediante conteggio (es: numero di esami sostenuti), con modalità x di solito numeri interi.
  - Il numero k di modalità può essere finito (es: numero di esami) o infinito (es: numero di accessi al sito).
- Continui: si rilevano mediante misurazione (es: peso, temperatura), con modalità che sono intervalli e k sempre infinito.
Scale di modalità:
- Qualitative: attributi o categorie (es: genere).
- Quantitative: numeri (es: età, altezza).

Classificazione delle Scale di Modalità (Continuazione)

Scale qualitative:
- Sconnesse: solo relazioni di uguaglianza (=) o differenza (#) (es: genere).
- Ordinali: attributi o categorie ordinabili (es: titolo di studio).
Scale quantitative:
- Origine assoluta (scale rapporto): lo 0 indica l'assenza del fenomeno (es: misura quantitativa dei credenti).
- Origine convenzionale (scale non rapporto): lo 0 ha significato convenzionale (es: la temperatura).

Notazione

k = numero di diverse modalità previste dalla scala.
i = indice per distinguere le diverse modalità.
Esempio 1: genere -> k= 2, ×="maschio", X,="femmina".
Esempio 2: esito partita di calcio -> k=4; ×="vittoria", X›="sconfitta", x;="pareggio", ×="rinviata"

Esercizi (Continuazione)

Esercizio 1: numero di figli per famiglia degli immigrati regolari in Italia.
- Variabile X: “numero di figli” -> Variabile Quantitativo Discreto. Uso una scala Quantitaviva ASSOLUTA. lo Zero -> assenza del fenomeno\variabile.
- U”tutti gli immigrati regolari in Italia”.
- Caso n. Due età degli immigrati maschi regolari in Italia Popolazione U: maschi regolari in Italia Variabile X: eta dei maschi regolari in Italia —> Variabile Quantitativa Discreta Uso una scala quantitativa CONVENZIONALE • lo zero è posto in modo convenzionale.
- Anno di nascita-> quantitativa discreta
Voto in matematica -> quantitativa discreta con scala convenzionale
Voto di laurea -> quantitativa discreta con scala convenzionale

Dati grezzi

Il risultato della rilevazione del fenomeno X sulla popolazione U di numerosità N è un insieme di N osservazioni.
Ciascuna osservazione coincide con una (e una sola) delle k modalità XI previste dalla scala utilizzata.
- Esempio: comportamento sessuale degli studenti universitari: fenomeno X -> quantitativo e discreto, le sue modalità x, sono i numeri interi 0,1,…;
- la scala delle modalità è quantitativa rapporto.
- U: gruppo di studenti e studentesse universitarie italiane N = 60, X: numero di partner sessuali degli ultimi 12 mesi.

Distribuzioni di Frequenza

Obiettivo: far emergere dai dati informazioni utili a descrivere e spiegare il comportamento di X su U.
- Frequenza assoluta: numero di volte in cui una modalità x, è stata rilevata in U, la somma riproduce la numerosità N di U
- Distribuzione di frequenza: si costruisce per conteggio e organizza i dati in tabella.

Le Variabili Statistiche

-> X indica : sia il fenomeno di interesse (prima di essere rilevato) sia la corrispondente variable Statistica (dopo la rilevazione e la strutturazione dei dati grezzi).
Costruendo le frequenze relative -> Ex, Fil i = 1 , . . . . , iN (grandel 8 8 ↳ = delle Pi = 1

Frequenze Cumulate e Densità di Frequenza

Le frequenze cumulate indicano quante unità statistiche manifestano una modalità non superiore a una certa x,.
Fenomeni quantitativi continui: le modalità x1,x2… sono intervalli [x, , X,).
La distribuzione delle frequenze all'interno degli intervalli è ignota.
Per superare l'ostacolo possiamo ricorrere ad ipotesi in sostituzione delle informazioni ignote.
Densità di frequenza= frequenza dell'intervallo depurata dall'influenza dell'ampiezza dell’intervallo.
L’ampiezza si misura facendo x - X, ' # e O, Maiuscolo 4 IN Un certo intervallo S I S - SOMMG F. ASS . - SOMMAF.

Ipotesi Comuni

Valore centrale: a tutte le f, unità statistiche che ricadono nell'intervallo viene assegnato il valore centrale.
Distribuzione uniforme: le f unità statistiche vengono distribuite in modo equidistante nell'intervallo.
- Si supera il problema dell'ignota distribuzione delle frequenze all'interno dell'intervallo MA si perde la natura continua rappresentata dagli intervalli.

Rappresentazioni Grafiche

Alternative alle tabelle, preferibili se k è grande.
Fenomeni qualitativi: il grafico è un semplice disegno (barre, torte) e l'altezza/lunghezza delle barre o la dimensione dello spicchio danno un'idea della frequenza associata a ciascuna categoria.
Fenomeni quantitativi: le x, oltre alle fi , sono dei numeri, si costruiscono dei diagrammi cartesiani, sull'asse delle ascisse si mettono le x e Su quello delle ordinate le f, o le pi
Fenomeni discreti: il diagramma più efficace è quello a bastoncini.
Fenomeni continui: se si fa l'ipotesi della distribuzione omogenea, la frequenza viene rappresentata da un'area, con un istogramma.

Esercizio

Costruire la variabile statistica classificando il fenomeno nei seguenti intervalli: (0F- 2), (2 + 4), (4 +- 6), (6 +- 8).
Fornire la distribuzione di frequenze relative e rappresentarla graficamente.
Fornire la distribuzione di frequenze cumulate e commentarle.

Valori Medi

Moda: modalità con la frequenza più elevata (calcolabile per qualsiasi X).
- Se X è continua, si usa la densità di frequenza per identificare l'intervallo modale.
Campi di utilizzo della Mediana: fenomeni almeno ordinali (qualitativi ordinali o quantitativi) -> ES comune di residenza non si puo utilizzare la mediana, perchè non c’è un valore secondo cui si può organizzare secondo un ordine
- Mediana: modalità che occupa la posizione centrale nell'ordinamento (50% dei valori inferiori o uguali).
- Si individua scorrendo le frequenze cumulate relative fino a raggiungere o superare 0.5.

Sintesi in Numeri e Box Plot

Per un fenomeno almeno ordinale, la v.s. può essere descritta da:
- X Minimo
- I quartile: X0.25 -> cade nel primo 25 % dei dati
- Mediana (secondo quartile che include il 50%) X0.5
- I quartile: X0.75
- X Massimo
Media aritmetica: somma dei prodotti modalità x frequenza, diviso la somma frequenza.

Media Aritmetica, Moda e Mediana

Mosa= media = Mediana—> i dati sono distribuiti in modo omogeneo e sono simmetrici
Se la media aritmetica è fortemente influenzata dai valori estremi (outliers). La mediana è più "stabile"

Relazione tra Media e Mediana

Conclusione:
media = mediana
media > mediana X
se media - mediana - - 11

Principi di Scelta dei Valori Medi

Valore interno al range dei dati.
Omogeneità: equivarianza rispetto a variazioni di scala.
Linearità (solo media aritmetica): equivarianza rispetto a trasformazioni lineari.
Associatività: la media della popolazione è la media delle medie dei sottogruppi.

Funzione di Perdita

Anziché pensare alle proprietà del valor medio, pensiamo alla perdita di informazioni dovuta alla sintesi dell'intera vs. nell'unico valor medio
-> Guardiamo alla distanza tra le modalità osservate e il valor medio. se i dati sono simmetrici: si può calcola il valore come riferimento la mediana che la media per calcolare la funzione di perdita

Minimizzazione della Funzione di Perdita

Il valor medio che minimizza L è la media aritmetica Elevare al quadrato ha l'effetto di enfatizzare le differenze, questa funzione di perdita va bene quando:
- le differenze piccole sono poco importanti le grandi differenze sono molto importanti
- Invece di considerare una funzione di perdita basata sulle distanze tra i valori osservati X, e il valor medio, adottiamo una funzione di perdita che consideri un particolare aspetto del fenomeno X che interessa in modo speciale
Attenzione: nelle medie di Chisini non è garantita l'internalità!

Variabilità

Attitudine di un fenomeno quantitativo a manifestarsi, sulle N unità di U, con modalità tra loro diverse e «distanti».
- Assume valore 0 -> in assenza di variabilità (unica modalità, obvvero v.s. costante o degenere)
- Assume valori positivi -> in presenza di variabilità (modalità molteplici e differenti)
- Cresce con il crescere della variabilità
Una misura (assoluta) della variabilità di X su U è un indice sintetico con le seguenti caratteristiche:

Misure di Variabilità

Range: <> -> È una misura di variabilità grossolana, ed è molto sensibile alla presenza di valori anomali (outliers).
Differenza interquartile: <> sensibile alla presenza di valori anomali. Sono informazioni disponibili nei box-plot, che ci danno quindi anche una misura della variabilità della v.s.
Deviazione Standard: - Dal momento che quello che interessa è la distanza, e non il segno, gli scarti dalla media vengono elevati al quadrato.

Coefficiente di Variazione e Varianza

Coefficiente di Variazione e Varianza -> è più conveniente da usare in linea teorica, non per misurare la variabilità ma per perseguire altri scopi descrittivi e interpretativi.

Tabella a Doppia Entrata

Tabella a doppia entrata -> serve a vedere le caratteristiche di una classe: Quante studentesse hanno la stessa altezza Quanti maschi e femmine ci sono. Con Frequenze marginali =frequenze che riguardano I fenomeni X, Y singolarmente e separatamente. Frequenze congiunte = La frequenza con cui si manifesta ciascuna coppia (xi, yj) all'ncrocio fra la i-esima riga e la j- esima colonna; -> Per effetuare l'analisi bivariate, il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata

Inferenza Statistica

Inferenza Statistica -> L'inferenza statistica mi permette di trarre una conclusione su una parte di popolazione e espanderla per tutta la popolazione.
Per fare buona inferenza statistica è allora strategico che il campione abbia la caratteristica della rappresentatività, cioè sia una immagine in scala ridotta ma possibilmente fedele dell'intera U.
Al posto delle frequenze (ignote) si parla quindi di probabilità dalla variable Statistica si passa alla variabile casuale In questo caso si utilizza un campione causale.

Concetti Fondamentali

La probabilità va da zero a 1.
uno degli eventi elementari necessariamente sì verifica allora è l'evento certo, l'evento impossibile.
Se è uscita la faccia col 4 (o equivalentemente col 2 o col 6) allora -> l'evento E = (2. 4. 6} è verificato perché 4 appartiene ad E: se invece è uscita la faccia col 3 (o equivalentemente con l'1 o col 5) allora -> l'evento E = (2. 4. 6) non è verificato perché 3 NON APPARTIENE ad E.

Statistica Descrittiva vs Inferenza

Statitistica descrittiva / Inferenza statistica.
Variabile statistica / variabile casuale ->Trasformo gli eventi in simboli in numeri per poi usarli come valori per fare i calcoli, Sfruttando l'analogia tra v.c. e v.s. si possono trasferire molti concetti dalla statistica descrittiva alla statistica inferenziale:

Variable casuale e tipi

Variable casuale DISCRETA -> distribuzione binomiale / Varibile casuale CONTINUA -> distribuzione normale ogni v.c. Ha una certa distribuzione con una certa distribuzione e una certa varianza Coefficiente binomiale

Variabile Statistica

Modalità: V.c. discreta X: valore assume un numero finito di solitamente numeri interi
Frequenza relativa Pi -> Funzione di probabilità
X minore o uguale un valore x Funzione cumulate relative = ripartizione +probabilità con un valore X: variable STAT variab casuali

La Distruzione Binomiale

ha tre caratteristiche:
1) l'esperimento casuale consiste nell'esecuzione di n prove indipendenti in cui cioè l'esito di ciascuna prova non influenza l'esito della prova successiva
2) Ciascuna prova può avere come esito uno (e soltanto uno) di 2 eventi fra loro contrari ed esaustivi («successo» ed «insuccesso», con riferimento a fenomeni dicotomici)
3) .E' nota e costante in ciascuna prova la probabilità p del successo • n( quante volte faccio la prova) e p sono i parametri della v.c. binomiale • Il generico risultato della serie di n prove (il generico evento elementare) è binomiale • Una particolare v.c. discreta, con le seguenti tre caratteristiche:

La Variabile Casuale Continua

Le v.c. continue assumono infiniti valori -> Per identificarli, in analogia con le v.s. continue, bisogna fare riferimento ad intervalli. In questo caso si parla in questo caso di funzione di densità di probabilità -> 0(x) (in analogia con le densità di frequenza relative di una v.s.).

Tavole e Probabilità

Tipi di probabilità:
- Regola additiva: riferimento a due eventi indipendenti e il successo di almeno un evento: P(A o B) = P(A) + P (B)
- Regola moltiplicativa: riferimento a due eventi indipendenti e il successo di entrambi gli eventi: P(A e B) = P(A) x P(B)
- Probabilità condizionata: riferimento a due eventi dipendenti e al successo di entrambi gli eventi:
  - varia da 0 (evento impossibile)
  - a 1 (evento certo)

La Stima Puntuale e Intervallare

si calcola una stima di un intervallo IC sono sicura che la stima di un punto cade in un intervallo che va da un valore minimo ad un massimo -> intervallo di confidenza
Faccio una stima PUNTUALE +/- l’ERRORE e Gli IC sono però calcolabili solo se vale almeno una delle due seguenti condizioni:
- La funzione di probabilità o di densità di X è nota (in genere, distribuzione normale) oppure è ipotizzabile con un elevato grado di sicurezza (popolazione normale)
- La numerosità del campione n è sufficientemente grande perché valgano opportuni teoremi di teoria delle probabilità (grandi campioni)

Estremi per trovare l'Intervallo

Estremi l’intervallo di confidenza: Per la media: / Per la proporzione:
- se la Géspecificata -6 7 E-wr ; F + errore: se la Gnon la conosco, uso z valore critico standard, Deviazione Standard del Campione
Valore critico standardizzato -media (calcolare/data)
valore medio campioni: se non si conosce utilizzare La varianza data

Test Statistico

L'obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all'ignoto parametro, L'obiettivo è invece utilizzare dati campionari per stabilire se un'ipotesi, quale essa sia, possa essere «ragionevolmente» accettata o rifiutata (in termini probabilistici.
Accettare o rifiutare H. sulla base dei dati campionari comporta inevitabilmente il rischio di commettere un errore. Errore di l specie: rifiutare Ho quando Ho e vera Errore di II specie: accettare Ho (ipotesi iniziale) quando Ho è falsa.

Come leggere i dati? + Test

formulare quale é la ipotesi nulla e quella alternative Distinguere dal testo del esercizio quale é il livello del errore ALFA (5%) Scegliere il TEST STATUSTICO -> Statistica più adatto al nostro Caso
paragonare il valore osservato (calcolato da noi) con quello teorico critico (delle tavole )
- 1)se il nostro calcolato é maggiore di quello critico -> si accetta l’ipotesi ALTERNATUVA perché
- 2)se il nostro calcolato é minore rispetto a quello critico della tavola-> si dice che non ho abbastanza informazioni per rifiutare la ipotesi nulla, quindi resto nella ipotesi nulla

Dove vedere i dati? Tavole

1) Loro il valore critico nella tavola tet (2= 0 , 05 2 = 0 , 025 -valore osservato

Regressione

regressione -> testare come si influenzano le variabili a vicenda , si utilizza il METODO DEI MINIMI QUADRATI = Disegnala la Retta+ Variable: B0 : Intercetta +D1 P = Pendenza. Intercetta+ retatcrescita/ pendenza crescita La intercetta = P -P =valori medi