Le rappresentazioni tabellari e grafiche rivestono un ruolo fondamentale in Statistica. Si tratta infatti solitamente delle prime elaborazioni che vengono fatte su un insieme di dati per trarne le prime informazioni. Solitamente un grafico deve essere sempre accompagnato da una tabella che descrive i dati che hanno prodotto quel grafico. Medie, varianze, correlazioni e tabelle di contingenza possono essere intese come misure di sintesi delle distribuzioni, ma in pratica le rappresentazioni grafiche possono fornire utili informazioni aggiuntive.
La funzione hist() può essere utilizzata per rappresentare graficamente una distribuzione attraverso un istogramma: l’argomento breaks può essere impostato per suggerire il numero di categorie da disegnare.
hist(mydata$Nome, main = "Titolo Istogramma", xlab =
"Nome asse x", ylab = "Nome asse y")
Possiamo inoltre realizzare un istogramma colorato (Figura 2) nel quale gestire anche il numero delle classi in cui suddividere i dati. Con l’argomento col="red" l’istogramma viene colorato in rosso, mentre con l’argomento breaks=20 viene definito il numero delle classi desiderate.
hist(mydata$Colest, breaks=20, col="red", main = "Istogramma colorato con 20 classi", xlab = "Colesterolo totale in
mg/dL", ylab = "Frequenza")
Possiamo anche tracciare l’istogramma e sovraimporre ad esso la distribuzione gaussiana teorica (Figura 4):
x <- mydata$Colest
h <-hist(x, breaks=33, col="red", main = "Istogramma con curva
gaussiana", xlab="Colesterolo totale in mg/dL", ylab =
"Frequenza", prob=T)
xfit<-seq(min(x),max(x),length=40)
yfit<-dnorm(xfit,mean=mean(x),sd=sd(x))
yfit <- yfit*diff(h$mids[1:2])*length(x)
lines(xfit, yfit, col="blue", lwd=2)
In questo caso i dati sono stati suddivisi in 33 classi, seguendo la regola per cui il numero delle classi dovrebbe essere uguale alla radice quadrata del numero dei dati (qui abbiamo 1000 dati, la cui radice quadrata è circa 33).
Perché si usano gli istogrammi? La distribuzione di frequenza associa ogni modalità X alla relativa frequenza F(x), mentre la distribuzione di probabilità associa ogni modalità X alla relativa probabilità P(x). La somma dei valori di una distribuzione di probabilità è sempre uguale a uno. A seconda della natura della variabile casuale, discreta o continua, la distribuzione di probabilità può essere:
Distribuzione di probabilità discrete. Il fenomeno è osservabile con un numero intero di modalità. E’ espressa tramite una funzione di probabilità p(x) che associa ogni modalità alla relativa probabilità di manifestarsi. Generalmente consiste in un diagramma a barre oppure a torta.
Distribuzione di probabilità continua. La distribuzione di probabilità è continua quando la variabile casuale assume un insieme continuo di valori. Il fenomeno statistico è osservabile con un numero infinito. E’ espressa tramite una funzione di densità di probabilità f(x). Trattandosi di un fenomeno statistico continuo, il fenomeno è rappresentabile con una funzione matematica continua.
Un grafico di stima della densità della distribuzione è un metodo per visualizzare la distribuzione delle osservazioni in un set di dati, analogo a un istogramma. Il grafico rappresenta i dati utilizzando una curva di densità di probabilità continua in una o più dimensioni. Il diagramma che rappresenta la distribuzione della densità delle osservazioni (kernel density plot) è una modalità di rappresentazione piuttosto interessante, che può essere utilizzata in alternativa al tradizionale istogramma.
d <- density(mydata$Colest) #dati di densità
plot(d, main = "Kernel density plot", xlab="Colesterolo totale in mg/dL", ylab = "Densità")
polygon(d, col="red", border="blue")
In alternativa, è possibile tracciare due kernel density plot indipendenti e sovrapposti (utile per M ed F, etc) e cliccando sulla legenda è possibile scegliere il plot da visualizzare (l’altro rimane tratteggiato sotto). Infatti, è possibile sovrapporre più density plot.
I box & whiskers plot (diagrammi a scatola e baffi) consentono di confrontare in modo immediato la distribuzione di più variabili. La scatola rappresenta la mediana (al centro), il primo quartile (margine inferiore della scatola) e il terzo quartile (margine superiore della scatola). La scatola include pertanto il 50% delle osservazioni. Le incisure, se presenti, indicano la significatività della differenza tra le mediane. I baffi possono includere tutti i dati osservati oppure lasciare all’esterno i dati che presentano uno scostamento eccessivo (outliers). I box & whiskers plot forniscono una rappresentazione non-parametrica della distribuzione dei dati.
boxplot(IgA~Diagnosi, data=mydata, main="IgA nelle malattie croniche del fegato",
xlab="Diagnosi clinica", ylab="IgA in g/L", notch=TRUE, col="green")
In questo caso sono tracciati i boxplot delle IgA per ciascuna diagnosi con una incisura (notch=TRUE) che rappresenta i limiti di confidenza al 95% della mediana. Questo corrisponde ad un test per la significatività della differenza tra le mediane. Se le incisure di due boxplot non si sovrappongono la mediana delle due distribuzioni è significativamente diversa.
Lo scatter plot (grafico a dispersione) o semplicemente diagramma cartesiano descrive i dati come punti.
plot(HBA2, FERRO, main="Scatter plot semplice con cerchi pieni", xlab="Emoglobina
A2, % ", ylab="Ferro, μg/dL ", pch=19)
Come identificare i punti in uno scatter plot? Questo codice risponde a un problema banale, ma che si pone spesso: questo punto che si discosta così tanto dagli altri a quale dato corrisponde?
identify(HB, HCT, plot = TRUE, atpen = FALSE, offset = 0.5, tolerance = 0.25)
Posizionatevi nelle vicinanze del punto cui siete interessati e che volete identificare: poco sopra, appena sotto, un poco a sinistra o a destra, e fate click con il tasto sinistro del mouse: nella posizione prescelta comparirà il numero del dato. Per terminare la selezione, premere il tasto Esc sulla tastiera.
I modelli di regressione sono ampiamente utilizzati in statistica per testare la relazione tra variabili esplicative e una variabile di risposta, oltre a prevedere il valore sconosciuto della variabile di risposta. Quì, discutiamo i modelli di regressione lineare, che sono semplici ma estremamente utili. L'ipotesi di base di questi modelli è che la relazione complessiva tra le variabili esplicative e la variabile di risposta sia lineare. La correlazione è una misura statistica che ci racconta l’associazione tra le due variabili. Descrive come si comporta una variabile se c'è qualche cambiamento nell'altra: se le due variabili aumentano o diminuiscono in parallelo allora hanno una correlazione positiva tra loro e se una delle variabili aumenta e l'altra diminuisce allora hanno una correlazione negativa tra loro. Se il cambiamento di una variabile non ha alcun effetto su un'altra variabile, allora le loro correlazioni sono pari a zero.
Simple regression model. Un esempio può essere la situazione in cui studiamo la relazione lineare tra due variabili numeriche (es. età ed altezza). In questo caso, in genere consideriamo una delle due variabili numeriche (età) come variabile di risposta (o obiettivo) e l'altra (altezza) come variabile esplicativa. Per indagare la relazione tra una variabile esplicativa (categorica o numerica) e una variabile numerica casuale, utilizziamo modelli di regressione lineare per testare un'ipotesi relativa alla relazione tra una o più variabili esplicative e una variabile di risposta o per prevedere valori sconosciuti della variabile di risposta utilizzando uno o più predittori.
In questo particolare esempio, puoi calcolare l'altezza di un bambino se conosci la sua età: $Height=(a*Age)+b$ → $y=mx+q$, è l'equazione in forma esplicita di una retta nel piano cartesiano, non parallela all'asse delle ordinate. In particolare m è detto coefficiente angolare (pendenza della retta) mentre q prende il nome di ordinata all'origine (intercetta).
Nel nostro caso, "a" e "b" sono rispettivamente pendenza e intercetta. In generale, nella maggior parte dei casi, il nostro obiettivo è esaminare la relazione tra la variabile di risposta e un insieme di variabili esplicative, o prevedere i valori sconosciuti della variabile di risposta utilizzando un insieme di predittori. È molto importante specificare chiaramente il nostro obiettivo prima di iniziare l'analisi. La nostra strategia per costruire un modello di regressione lineare dipende dal nostro obiettivo. Come al solito, usiamo X per indicare le variabili esplicative e Y per indicare le variabili di risposta. Iniziamo la nostra analisi creando il grafico a dispersione (scatter plot) della variabile di risposta e della variabile esplicativa.
lm(y ~ x, data=data_source)
summary(lmR)
Con il comando summary(lmR) si possono vedere le informazioni dettagliate sulle prestazioni e sui coefficienti del modello. Quando una regressione tiene conto di due o più predittori per creare la regressione lineare, si chiama regressione lineare multipla (multiple linear regression). Un altro aspetto a cui prestare attenzione nei risultati dei modelli lineari è il p-value dei coefficienti. In parole povere, un p-value indica se si può o meno rifiutare o accettare un'ipotesi. L'ipotesi, in questo caso, è che il predittore non sia significativo per il tuo modello. Il valore p per la concentrazione di ferro è 0.052. In altre parole, c'è una probabilità del 5% che questo predittore non sia significativo per la regressione. Un modo standard per verificare se i predittori non sono significativi è guardare se i valori p sono inferiori a 0.05
Un buon modo per testare la quality model è guardare i residui o le differenze tra i valori reali e i valori previsti. La linea retta nell'immagine qui sotto rappresenta i valori previsti. La linea verticale rossa dalla linea retta al valore dei dati osservati è il residuo. L'idea qui è che la somma dei residui sia approssimativamente zero o il più bassa possibile. Nella vita reale, la maggior parte dei casi non seguirà una linea perfettamente retta, quindi ci si aspettano residui. Una misura molto usata per testare quanto è buono il modello creato, è il coefficiente di determinazione o R². Nel rettangolo rosso, si noti che ci sono due diverse R², uno Multiple e uno Adjusted. Il multiple è l’ R² che abbiamo visto in precedenza. Un problema con questo R² è che non può diminuire man mano che aggiungi più variabili indipendenti al tuo modello, continuerà ad aumentare man mano che rendi il modello più complesso, anche se queste variabili non aggiungono nulla alle tue previsioni. Per questo motivo, è meglio guardare l'R² aggiustato se si aggiunge più di una variabile al modello poiché aumenta solo se riduce l'errore complessivo delle previsioni.
I coefficienti di correlazione di Pearson e Spearman sono due misure statistiche ampiamente utilizzate quando si misura la relazione tra variabili. Il coefficiente di correlazione di Pearson valuta la relazione lineare tra le variabili, mentre il coefficiente di correlazione di Spearman valuta la relazione monotona (trend). Comprendere le differenze tra i coefficienti di correlazione di Pearson e Spearman è fondamentale per selezionare la misura appropriata in base alla natura dei dati e agli obiettivi della ricerca.
Cos'è il coefficiente di correlazione di Pearson? Il coefficiente di correlazione di Pearson è una misura statistica che quantifica la forza e la direzione di una relazione lineare tra due variabili. Varia da -1 a 1, con valori vicini a -1 che indicano una forte relazione lineare negativa, valori vicini a 1 indicano una forte relazione lineare positiva e 0 indica nessuna relazione lineare. Cos'è il coefficiente di correlazione di Spearman? Il coefficiente di correlazione di Spearman è una misura statistica che valuta la forza e la direzione di una relazione monotona tra due variabili. Classifica i dati anziché fare affidamento sui loro valori effettivi, rendendolo adatto a dati ordinali o non distribuiti normalmente. Varia da -1 a 1, dove valori vicini a -1 o 1 indicano una forte relazione monotona e 0 indica nessuna relazione monotona. La correlazione di Spearman è utile per rilevare e quantificare le associazioni quando non si presuppongono relazioni lineari o quando si tratta di dati ordinati o ordinali.
Il coefficiente di correlazione è compreso tra -1 and 1:
-1 indicata una forte correlazione negativa: questo significa che ogni volta che x aumenta, y diminuisce (pannello sinistro in figura)
0 significa che non c’è nessuna associazione tra le due variabili (x e y) (pannello centrale in figura)
1 indicata una forte correlazione positiva: questo significa che y aumenta all’aumentare di x (pannello destro in figura)
Come possiamo vedere entrambi i coefficienti di correlazione danno il valore di correlazione positivo per Temperatura e Pressione ma il valore dato da essi è leggermente diverso perché i coefficienti di correlazione Pearson misurano la relazione lineare tra le variabili mentre i coefficienti di correlazione Spearman misurano solo relazioni monotone, relazione in cui le variabili tendono a muoversi nella stessa/opposta direzione ma non necessariamente a un ritmo costante mentre il tasso è costante in una relazione lineare.
Un correlogramma, o autocorrelogramma, è un grafico in cui l’ampiezza della colorazione della torta misura il coefficiente di correlazione (torta completamente bianca r=0, torta completamente colorata r=1), i valori dei coefficienti di correlazione vanno decrescendo dalla diagonale centrale verso la periferia, in blu sono riportati i valori positivi di r (le due grandezze aumentano e diminuiscono congiuntamente), in rosso i valori negativi di r (all’aumentare di una delle due grandezze l’altra diminuisce e viceversa).