Statistica: Concetti Fondamentali e Metodologie

Statistica: Introduzione

  • La statistica è un insieme di metodi e tecniche per:
    • La conoscenza quantitativa di fenomeni.
    • L'analisi e la comprensione di fenomeni singoli o congiunti.
    • Fenomeni che si manifestano con diverse espressioni osservabili, totalmente o parzialmente.
  • Etimologia: Deriva da "Stato", usata per decisioni razionali.
  • Nel 1800, si caratterizza come metodo scientifico con l'introduzione del calcolo delle probabilità.
  • Fondatori del ragionamento statistico moderno: Crearson, Ficher, Neyman.

Il Metodo Statistico

  • Consiste nel processo logico di:
    • osservazione -> analisi -> comprensione.
  • Raccolta dati -> elaborazione -> trasformazione in informazioni.
  • Trasformazione di dati muti (isolati) in informazioni utilizzabili attraverso la relazione con altri dati.

Nozioni di Base

  • Fenomeni statistici: i fenomeni di interesse (es: il reddito) -> X, Y, Z..
  • Unità statistiche: i supporti fisici o teorici delle diverse manifestazioni di un fenomeno statistico (es: individui).
  • Manifestazioni statistiche: le singole determinazioni del fenomeno (es: il reddito di Tizio) ->X, V, Z…
  • Popolazione statistica/universo di riferimento: l'insieme delle unità statistiche sulla quali interessa studiare il fenomeno -> U
  • Numerosità/dimensione di U: il numero di unità statistiche che compongono la popolazione statistica di riferimento ->V di base

Statistica Descrittiva

  • Descrive il comportamento di X su U.
  • La rilevazione è esaustiva (censuaria) di U.
  • Si dispone di tutti gli V dati osservati presso tutte le unità statistiche.
  • Può essere:
    • Univariata: descrive un solo fenomeno su U.
    • Bivariata: studia le relazioni tra due fenomeni congiuntamente rilevati su U.
    • Multivariata: descrive il comportamento congiunto di più di due fenomeni rilevati su U studiandone le relazioni.

Statistica Inferenziale

  • Se la rilevazione è una parte della popolazione -> stat inferenziale ↳ N + n (campione faccio un campionamento - deduco poix tutta - indico conhminuscola I la popolazione statisticamente un campione dovrà' essere h (mimo 30 osservation)
  • Le unità del campione hanno gli stessi Attributi della pop . · Stessa Frazione F/m o provenienti S CModalità Istaciettatore che lamia Variabile può escorete)

Classificazione dei Fenomeni Statistici

  • Fenomeni Quantitativi e qualitativi

Fenomeni Qualitativi

  • Si manifestano attraverso attributi o categorie, qualità.
    • Esempi: genere, titolo di studio, squadra tifata.
    • Ordinali: attributi e categorie ordinabili (es: scuola primaria < secondaria < università).
    • Categoriali: senza un criterio oggettivo (ma solo personale) (es: città di residenza).

Fenomeni Quantitativi

  • Si manifesta attraverso numeri e misure, quantità.
    • Esempi: numero di accessi, temperatura massima.
    • Discreti: si possono contare (es: numero esami registrati, numero di furti).
    • Continui: si possono misurare (es: peso corporeo, temperatura, resistenza alla tensione).
  • E come esempio , il Reddito, l'Altezza · può prendere qualsiasi Misura.

Esercizi

  • Esempio 1: Proprietaria di negozio di coiffeur interessata al colore più richiesto nel 2009.
    • U = tutte le persone che si sono recate a fare le tinte.
    • N = 288.
    • u = persone che hanno fatto le tinte.
    • Fenomeno/variabile = colore dei capelli enterresse C ↑ modalità di interesse (x) = biondo , rosso , castano , bruno".
  • Esempio 2: Nonna Elisabetta vuole fare un golfino per i suoi 9 nipotini
    • U = ninotini di nonni Elisabetta.
    • N = 9 ".
    • u = Mipotini di nonna Elisabetta a cui fa Il magione.
    • X = la misura del girovita dei nipotini espressa (n (m) ↑ ↳ variabile X = X ,0, …. Xg" quantitativa ↓ CONTINUO indiava da 1 a 9

La Rilevazione

  • È il processo di creazione dei dati.
  • Consiste nell'osservare o misurare e registrare le manifestazioni di X.
  • Principi:
    • Esaustività: la scala delle modalità deve prevedere tutte le possibili manifestazioni di X su U (es: risposta "Altro" in un questionario).
    • Mutua esclusività: le modalità si escludono a vicenda, senza sovrapposizioni.

Classificazione dei Fenomeni Statistici (Dettaglio)

  • Fenomeni quantitativi:
    • Discreti: si rilevano mediante conteggio (es: numero di esami sostenuti), con modalità x di solito numeri interi.
      • Il numero k di modalità può essere finito (es: numero di esami) o infinito (es: numero di accessi al sito).
    • Continui: si rilevano mediante misurazione (es: peso, temperatura), con modalità che sono intervalli e k sempre infinito.
  • Scale di modalità:
    • Qualitative: attributi o categorie (es: genere).
    • Quantitative: numeri (es: età, altezza).

Classificazione delle Scale di Modalità (Continuazione)

  • Scale qualitative:
    • Sconnesse: solo relazioni di uguaglianza (=) o differenza (#) (es: genere).
    • Ordinali: attributi o categorie ordinabili (es: titolo di studio).
  • Scale quantitative:
    • Origine assoluta (scale rapporto): lo 0 indica l'assenza del fenomeno (es: misura quantitativa dei credenti).
    • Origine convenzionale (scale non rapporto): lo 0 ha significato convenzionale (es: la temperatura).

Notazione

  • k = numero di diverse modalità previste dalla scala.
  • i = indice per distinguere le diverse modalità.
  • Esempio 1: genere -> k= 2, ×="maschio", X,="femmina".
  • Esempio 2: esito partita di calcio -> k=4; ×="vittoria", X›="sconfitta", x;="pareggio", ×="rinviata"

Esercizi (Continuazione)

  • Esercizio 1: numero di figli per famiglia degli immigrati regolari in Italia.
    • Variabile X: “numero di figli” -> Variabile Quantitativo Discreto. Uso una scala Quantitaviva ASSOLUTA. lo Zero -> assenza del fenomeno\variabile.
    • U”tutti gli immigrati regolari in Italia”.
    • Caso n. Due età degli immigrati maschi regolari in Italia Popolazione U: maschi regolari in Italia Variabile X: eta dei maschi regolari in Italia —> Variabile Quantitativa Discreta Uso una scala quantitativa CONVENZIONALE • lo zero è posto in modo convenzionale.
    • Anno di nascita-> quantitativa discreta
  • Voto in matematica -> quantitativa discreta con scala convenzionale
  • Voto di laurea -> quantitativa discreta con scala convenzionale

Dati grezzi

  • Il risultato della rilevazione del fenomeno X sulla popolazione U di numerosità N è un insieme di N osservazioni.
  • Ciascuna osservazione coincide con una (e una sola) delle k modalità XI previste dalla scala utilizzata.
    • Esempio: comportamento sessuale degli studenti universitari: fenomeno X -> quantitativo e discreto, le sue modalità x, sono i numeri interi 0,1,…;
    • la scala delle modalità è quantitativa rapporto.
    • U: gruppo di studenti e studentesse universitarie italiane N = 60, X: numero di partner sessuali degli ultimi 12 mesi.

Distribuzioni di Frequenza

  • Obiettivo: far emergere dai dati informazioni utili a descrivere e spiegare il comportamento di X su U.
    • Frequenza assoluta: numero di volte in cui una modalità x, è stata rilevata in U, la somma riproduce la numerosità N di U
    • Distribuzione di frequenza: si costruisce per conteggio e organizza i dati in tabella.

Le Variabili Statistiche

  • -> X indica : sia il fenomeno di interesse (prima di essere rilevato) sia la corrispondente variable Statistica (dopo la rilevazione e la strutturazione dei dati grezzi).
  • Costruendo le frequenze relative -> Ex, Fil i = 1 , . . . . , iN (grandel 8 8 ↳ = delle Pi = 1

Frequenze Cumulate e Densità di Frequenza

  • Le frequenze cumulate indicano quante unità statistiche manifestano una modalità non superiore a una certa x,.
  • Fenomeni quantitativi continui: le modalità x1,x2… sono intervalli [x, , X,).
  • La distribuzione delle frequenze all'interno degli intervalli è ignota.
  • Per superare l'ostacolo possiamo ricorrere ad ipotesi in sostituzione delle informazioni ignote.
  • Densità di frequenza= frequenza dell'intervallo depurata dall'influenza dell'ampiezza dell’intervallo.
  • L’ampiezza si misura facendo x - X, ' # e O, Maiuscolo 4 IN Un certo intervallo S I S - SOMMG F. ASS . - SOMMAF.

Ipotesi Comuni

  • Valore centrale: a tutte le f, unità statistiche che ricadono nell'intervallo viene assegnato il valore centrale.
  • Distribuzione uniforme: le f unità statistiche vengono distribuite in modo equidistante nell'intervallo.
    • Si supera il problema dell'ignota distribuzione delle frequenze all'interno dell'intervallo MA si perde la natura continua rappresentata dagli intervalli.

Rappresentazioni Grafiche

  • Alternative alle tabelle, preferibili se k è grande.
  • Fenomeni qualitativi: il grafico è un semplice disegno (barre, torte) e l'altezza/lunghezza delle barre o la dimensione dello spicchio danno un'idea della frequenza associata a ciascuna categoria.
  • Fenomeni quantitativi: le x, oltre alle fi , sono dei numeri, si costruiscono dei diagrammi cartesiani, sull'asse delle ascisse si mettono le x e Su quello delle ordinate le f, o le pi
  • Fenomeni discreti: il diagramma più efficace è quello a bastoncini.
  • Fenomeni continui: se si fa l'ipotesi della distribuzione omogenea, la frequenza viene rappresentata da un'area, con un istogramma.

Esercizio

  • Costruire la variabile statistica classificando il fenomeno nei seguenti intervalli: (0F- 2), (2 + 4), (4 +- 6), (6 +- 8).
  • Fornire la distribuzione di frequenze relative e rappresentarla graficamente.
  • Fornire la distribuzione di frequenze cumulate e commentarle.

Valori Medi

  • Moda: modalità con la frequenza più elevata (calcolabile per qualsiasi X).
    • Se X è continua, si usa la densità di frequenza per identificare l'intervallo modale.
  • Campi di utilizzo della Mediana: fenomeni almeno ordinali (qualitativi ordinali o quantitativi) -> ES comune di residenza non si puo utilizzare la mediana, perchè non c’è un valore secondo cui si può organizzare secondo un ordine
    • Mediana: modalità che occupa la posizione centrale nell'ordinamento (50% dei valori inferiori o uguali).
    • Si individua scorrendo le frequenze cumulate relative fino a raggiungere o superare 0.5.

Sintesi in Numeri e Box Plot

  • Per un fenomeno almeno ordinale, la v.s. può essere descritta da:
    • X Minimo
    • I quartile: X0.25 -> cade nel primo 25 % dei dati
    • Mediana (secondo quartile che include il 50%) X0.5
    • I quartile: X0.75
    • X Massimo
  • Media aritmetica: somma dei prodotti modalità x frequenza, diviso la somma frequenza.

Media Aritmetica, Moda e Mediana

  • Mosa= media = Mediana—> i dati sono distribuiti in modo omogeneo e sono simmetrici
  • Se la media aritmetica è fortemente influenzata dai valori estremi (outliers). La mediana è più "stabile"

Relazione tra Media e Mediana

  • Conclusione:
  • media = mediana
  • media > mediana X
  • se media - mediana - - 11

Principi di Scelta dei Valori Medi

  • Valore interno al range dei dati.
  • Omogeneità: equivarianza rispetto a variazioni di scala.
  • Linearità (solo media aritmetica): equivarianza rispetto a trasformazioni lineari.
  • Associatività: la media della popolazione è la media delle medie dei sottogruppi.

Funzione di Perdita

  • Anziché pensare alle proprietà del valor medio, pensiamo alla perdita di informazioni dovuta alla sintesi dell'intera vs. nell'unico valor medio
  • -> Guardiamo alla distanza tra le modalità osservate e il valor medio. se i dati sono simmetrici: si può calcola il valore come riferimento la mediana che la media per calcolare la funzione di perdita

Minimizzazione della Funzione di Perdita

  • Il valor medio che minimizza L è la media aritmetica Elevare al quadrato ha l'effetto di enfatizzare le differenze, questa funzione di perdita va bene quando:
    • le differenze piccole sono poco importanti le grandi differenze sono molto importanti
    • Invece di considerare una funzione di perdita basata sulle distanze tra i valori osservati X, e il valor medio, adottiamo una funzione di perdita che consideri un particolare aspetto del fenomeno X che interessa in modo speciale
  • Attenzione: nelle medie di Chisini non è garantita l'internalità!

Variabilità

  • Attitudine di un fenomeno quantitativo a manifestarsi, sulle N unità di U, con modalità tra loro diverse e «distanti».
    • Assume valore 0 -> in assenza di variabilità (unica modalità, obvvero v.s. costante o degenere)
    • Assume valori positivi -> in presenza di variabilità (modalità molteplici e differenti)
    • Cresce con il crescere della variabilità
  • Una misura (assoluta) della variabilità di X su U è un indice sintetico con le seguenti caratteristiche:

Misure di Variabilità

  • Range: <> -> È una misura di variabilità grossolana, ed è molto sensibile alla presenza di valori anomali (outliers).
  • Differenza interquartile: <> sensibile alla presenza di valori anomali. Sono informazioni disponibili nei box-plot, che ci danno quindi anche una misura della variabilità della v.s.
  • Deviazione Standard: - Dal momento che quello che interessa è la distanza, e non il segno, gli scarti dalla media vengono elevati al quadrato.

Coefficiente di Variazione e Varianza

  • Coefficiente di Variazione e Varianza -> è più conveniente da usare in linea teorica, non per misurare la variabilità ma per perseguire altri scopi descrittivi e interpretativi.

Tabella a Doppia Entrata

  • Tabella a doppia entrata -> serve a vedere le caratteristiche di una classe: Quante studentesse hanno la stessa altezza Quanti maschi e femmine ci sono. Con Frequenze marginali =frequenze che riguardano I fenomeni X, Y singolarmente e separatamente. Frequenze congiunte = La frequenza con cui si manifesta ciascuna coppia (xi, yj) all'ncrocio fra la i-esima riga e la j- esima colonna; -> Per effetuare l'analisi bivariate, il risultato della rilevazione congiunta viene organizzato in una tabella a doppia entrata

Inferenza Statistica

  • Inferenza Statistica -> L'inferenza statistica mi permette di trarre una conclusione su una parte di popolazione e espanderla per tutta la popolazione.
  • Per fare buona inferenza statistica è allora strategico che il campione abbia la caratteristica della rappresentatività, cioè sia una immagine in scala ridotta ma possibilmente fedele dell'intera U.
  • Al posto delle frequenze (ignote) si parla quindi di probabilità dalla variable Statistica si passa alla variabile casuale In questo caso si utilizza un campione causale.

Concetti Fondamentali

  • La probabilità va da zero a 1.
  • uno degli eventi elementari necessariamente sì verifica allora è l'evento certo, l'evento impossibile.
  • Se è uscita la faccia col 4 (o equivalentemente col 2 o col 6) allora -> l'evento E = (2. 4. 6} è verificato perché 4 appartiene ad E: se invece è uscita la faccia col 3 (o equivalentemente con l'1 o col 5) allora -> l'evento E = (2. 4. 6) non è verificato perché 3 NON APPARTIENE ad E.

Statistica Descrittiva vs Inferenza

  • Statitistica descrittiva / Inferenza statistica.
  • Variabile statistica / variabile casuale ->Trasformo gli eventi in simboli in numeri per poi usarli come valori per fare i calcoli, Sfruttando l'analogia tra v.c. e v.s. si possono trasferire molti concetti dalla statistica descrittiva alla statistica inferenziale:

Variable casuale e tipi

  • Variable casuale DISCRETA -> distribuzione binomiale / Varibile casuale CONTINUA -> distribuzione normale ogni v.c. Ha una certa distribuzione con una certa distribuzione e una certa varianza Coefficiente binomiale

Variabile Statistica

  • Modalità: V.c. discreta X: valore assume un numero finito di solitamente numeri interi
  • Frequenza relativa Pi -> Funzione di probabilità
  • X minore o uguale un valore x Funzione cumulate relative = ripartizione +probabilità con un valore X: variable STAT variab casuali

La Distruzione Binomiale

  • ha tre caratteristiche:
  • 1) l'esperimento casuale consiste nell'esecuzione di n prove indipendenti in cui cioè l'esito di ciascuna prova non influenza l'esito della prova successiva
  • 2) Ciascuna prova può avere come esito uno (e soltanto uno) di 2 eventi fra loro contrari ed esaustivi («successo» ed «insuccesso», con riferimento a fenomeni dicotomici)
  • 3) .E' nota e costante in ciascuna prova la probabilità p del successo • n( quante volte faccio la prova) e p sono i parametri della v.c. binomiale • Il generico risultato della serie di n prove (il generico evento elementare) è binomiale • Una particolare v.c. discreta, con le seguenti tre caratteristiche:

La Variabile Casuale Continua

  • Le v.c. continue assumono infiniti valori -> Per identificarli, in analogia con le v.s. continue, bisogna fare riferimento ad intervalli. In questo caso si parla in questo caso di funzione di densità di probabilità -> 0(x) (in analogia con le densità di frequenza relative di una v.s.).

Tavole e Probabilità

  • Tipi di probabilità:
    • Regola additiva: riferimento a due eventi indipendenti e il successo di almeno un evento: P(A o B) = P(A) + P (B)
    • Regola moltiplicativa: riferimento a due eventi indipendenti e il successo di entrambi gli eventi: P(A e B) = P(A) x P(B)
    • Probabilità condizionata: riferimento a due eventi dipendenti e al successo di entrambi gli eventi:
      • varia da 0 (evento impossibile)
      • a 1 (evento certo)

La Stima Puntuale e Intervallare

  • si calcola una stima di un intervallo IC sono sicura che la stima di un punto cade in un intervallo che va da un valore minimo ad un massimo -> intervallo di confidenza
  • Faccio una stima PUNTUALE +/- l’ERRORE e Gli IC sono però calcolabili solo se vale almeno una delle due seguenti condizioni:
    • La funzione di probabilità o di densità di X è nota (in genere, distribuzione normale) oppure è ipotizzabile con un elevato grado di sicurezza (popolazione normale)
    • La numerosità del campione n è sufficientemente grande perché valgano opportuni teoremi di teoria delle probabilità (grandi campioni)

Estremi per trovare l'Intervallo

  • Estremi l’intervallo di confidenza: Per la media: / Per la proporzione:
    • se la Géspecificata -6 7 E-wr ; F + errore: se la Gnon la conosco, uso z valore critico standard, Deviazione Standard del Campione
  • Valore critico standardizzato -media (calcolare/data)
  • valore medio campioni: se non si conosce utilizzare La varianza data

Test Statistico

  • L'obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all'ignoto parametro, L'obiettivo è invece utilizzare dati campionari per stabilire se un'ipotesi, quale essa sia, possa essere «ragionevolmente» accettata o rifiutata (in termini probabilistici.
  • Accettare o rifiutare H. sulla base dei dati campionari comporta inevitabilmente il rischio di commettere un errore. Errore di l specie: rifiutare Ho quando Ho e vera Errore di II specie: accettare Ho (ipotesi iniziale) quando Ho è falsa.

Come leggere i dati? + Test

  • formulare quale é la ipotesi nulla e quella alternative Distinguere dal testo del esercizio quale é il livello del errore ALFA (5%) Scegliere il TEST STATUSTICO -> Statistica più adatto al nostro Caso
  • paragonare il valore osservato (calcolato da noi) con quello teorico critico (delle tavole )
    • 1)se il nostro calcolato é maggiore di quello critico -> si accetta l’ipotesi ALTERNATUVA perché
    • 2)se il nostro calcolato é minore rispetto a quello critico della tavola-> si dice che non ho abbastanza informazioni per rifiutare la ipotesi nulla, quindi resto nella ipotesi nulla

Dove vedere i dati? Tavole

  • 1) Loro il valore critico nella tavola tet (2= 0 , 05 2 = 0 , 025 -valore osservato

Regressione

  • regressione -> testare come si influenzano le variabili a vicenda , si utilizza il METODO DEI MINIMI QUADRATI = Disegnala la Retta+ Variable: B0 : Intercetta +D1 P = Pendenza. Intercetta+ retatcrescita/ pendenza crescita La intercetta = P -P =valori medi