T-test

Confronto tra medie di due gruppi indipendenti (parametrico)

Una circostanza frequente è quella in cui si sono esaminati due (o più) campioni di animali; sugli animali di ciascun campione è stata misurata una variabile numerica (es. altezza, peso, frequenza cardiaca, produzione di latte ecc.), di cui è stata poi calcolata la media. Ti chiedi: la differenza fra le medie dei due campioni è significativa? Il t-test per due campioni è il metodo più semplice per confrontare le medie di una variabile numerica relative a due campioni indipendenti.

L’intervallo di confidenza di una differenza tra medie (nel caso di due campioni) e il t-test per due campioni, si basano sulle seguenti affermazioni:

  • le due variabili devono essere indipendenti;

  • la variabile numerica nei due gruppi di campioni (A e B), confrontati, hanno una distribuzione normale in ciascuna popolazione. Questo può essere controllato usando il test di Shapiro-Wilk;

  • e quando vi è omogeneità nella varianza (la variabilità dei dati di ciascun gruppo è simile). Questo puo' essere controllato usando il test di Fisher (F test).

t.test(x, y, alternative = "two.sided", var.equal = FALSE)
  • x, y: vettori numerici;

  • alternative: l'ipotesi alternativa. Il valore consentito puo' essere "two.sided" (predefinito), "greater" o "less"; • var.equal: una variabile logica che indica se trattare le due varianze come uguali. Se TRUE, la varianza raggruppata viene utilizzata per stimare la varianza altrimenti viene utilizzato il test Welch.

I test preliminari per verificare l’ipotesi del t-test sono:

  1. Assicurarsi che i due campioni siano indipendenti.

  2. Assicurarsi che i dati dei due gruppi seguono una distribuzione normale. Occorre quindi il test di normalità di Shapiro-Wilk dove

    1. H0=Ipotesi nulla: i dati sono normalmente distribuiti (p>0.05)

    2. H1=Ipotesi alternativa: i dati non sono normalmente distribuiti (p<0.05)

    shapiro.test(nome_variabile_quantiativa) 
    
  3. Assicurarsi che le due popolazioni abbiano la stessa varianza. Occorre quindi utilizzare F-test F per verificare l'omogeneità delle varianze dove

    1. H0=Ipotesi nulla: i dati hanno una varianza omogenea (p>0.05)

    2. H1=Ipotesi alternativa: i dati non hanno una varianza omogenea (p<0.05)

var.test(variabile_quantitativa ~ variabile_qualitativa) come segue:

Confronto tra medie di due gruppi indipendenti (non-parametric): Wilcoxon-test

Accanto al tradizionale test parametrico per il confronto tra due gruppi indipendenti di campioni (medie), test t di Student, esistono gli equivalenti test non parametrici per il confronto tra mediane, che devono essere impiegati quando i dati non sono distribuiti in modo gaussiano:

test di Wilcoxon per campioni indipendenti (in genere meglio noto come test U di Mann-Whitney). Il test è un'alternativa non-parametrica al t-test, che può essere utilizzato per confrontare due gruppi indipendenti di campioni. Viene utilizzato quando i dati non sono normalmente distribuiti (es. indice di massa corporea tra uomini e donne).

Come nel caso delle statistiche elementari anche in questo caso è necessario effettuare una analisi esplorativa dei dati per decidere quale sia il test appropriato da impiegare.

All’ indice di massa corporea (bmi), che non è distribuito in modo gaussiano, applichiamo il test non parametrico per il confronto tra mediane con le funzioni wilcox.test(), in ciascuna delle quali i due campioni da mettere a confronto sono ottenuti aggregando i valori della variabile indice di massa corporea (bmi) in base ai valori della variabile sesso (sex) mediante l'argomento bmi~sex:

wilcox.test(bmi ~ sex)
median(bmi[sex == "f"])
median(bmi[sex == "m"])

Verificare che le mediane siano o meno significativamente diverse. Si usa la mediana perchè questo tipo di statistiche viene rappresentato con un boxplot (grafico a scatola con i baffi), dove i “baffi” o notch (quindi occorre scrivere notch = TRUE) sono rappresentati dai limiti di confidenza al 95% della mediana. Se i limiti di confidenza delle mediane confrontate non si sovrappongono, le mediane sono significativamente diverse.

Considerando le ipotesi statistiche di uguaglianza o differenza (per variabili indipendenti) e di maggioranza o minoranza (per variabili dipendenti), le ipotesi H0 e H1 di uguaglianza o differenza sono chiamate two tailed tests (test a due code) e le ipotesi H0 e H1 di minoranza o maggioranza sono chiamate one tailed tests (test a una coda).

Confronto appaiato di medie di due gruppi indipendenti (paired samples)

In questo caso i gruppi campionari sono diversi e quindi indipendenti, ma vengono comparati per la stessa variabile. In uno studio appaiato, l’unità campionaria è la coppia di misure. Per questo motivo dobbiamo ridurre le due misure ottenute in ciascuna coppia ad un singolo valore numerico. Per fare questo dobbiamo allora considerare la differenza tra la coppia di misure piuttosto che le misure appaiate. Per convertire ogni coppia di misure appaiate in una singola misura, si calcola la loro differenza.

Il t-test dei campioni accoppiati (paired) viene utilizzato per confrontare le medie tra due gruppi, di campioni correlati. In questo caso, abbiamo due valori (cioè una coppia di valori) per gli stessi campioni.

Per esempio, il t-test paired può essere utilizzato per confrontare i pesi medi prima e dopo il trattamento. Un t-test accoppiato è eseguito come segue:

  • viene calcolata la differenza (d) tra ogni coppia di valori

  • viene calcolata la media (m) e la deviazione standard (s) della differenza (d)

  • viene confrontata la differenza media su 0. Se c’è una differenza significativa tra le due coppie di campioni, la media (m) della differenza (d) dovrebbe essere lontana da zero.

Anche in questo caso il t-test accoppiato (paired) può essere utilizzato solo quando:

  • le unità sono indipendenti (le unità campionarie sono campionate casualmente dalla popolazione)

  • la differenza d è normalmente distribuita. Questo può essere controllato usando il test di Shapiro-Wilk.

t.test(x, y, paired = TRUE, alternative = "two.sided")
  • x, y: vettori numerici;

  • alternative: l’ipotesi alternativa. Il valore consentito può essere “two.sided” (predefinito), “greater” o “less”;

  • paired: una variabile logica che indica che vogliamo calcolare un t-test accoppiato.

I test preliminari per verificare l’ipotesi del paired t-test sono?

  • I due campioni sono accoppiati (paired)?

  • Questo è un grande campione (in termini di numerosità)? Se la dimensione del campione non è abbastanza grande (n<30), dobbiamo verificare se le differenze delle coppie seguono una distribuzione normale. Comunque sia, nonostante il teorema del limite centrale, è sempre buona prassi controllare la distribuzione. Per rispondere a questa domanda bisogna utilizzare il test di normalità di Shapiro-Wilk dove H0= i dati sono normalmente distribuiti (p>0.05) e H1= i dati non sono normalmente distribuiti (p<0.05). Calcoliamo prima la differenza d:

    differenza<- peso[gruppo == "prima"]- peso[gruppo=="dopo"]
    shapiro.test(differenza)
    

    Se il valore dell’output p è maggiore del livello di significatività 0.05, la distribuzione delle differenze d non è significativamente diversa dalla distribuzione normale. In altre parole, possiamo assumere la normalità (H0). In caso contrario procediamo con il Wilcoxon-test paired.

Il paired t-test risponde alla domanda: esiste una differenza significativa nel peso prima e dopo il trattamento?

t.test(peso ~ gruppo, data = my_data, p = TRUE)

→ Se vogliamo invece verificare se il peso medio dopo il trattamento è inferiore al peso medio prima del trattamento, eseguiamo:

t.test(peso ~ gruppo, data = my_data, p = TRUE, alternative="less")

→ Se vogliamo invece verificare se il peso medio dei topi dopo il trattamento è maggiore al peso medio dei topi prima del trattamento, eseguiamo:

t.test(peso ~ gruppo, data = my_data, p
 = TRUE, alternative="greater")

Confronto accoppiato tra medie di due gruppi indipendenti

(non-parametric): paired samples Wilcoxon-test

Il test di Wilcoxon (noto anche come test Wilcoxon rank sum o Mann-Whitney test) è un'alternativa non-parametrica al t-test, che può essere utilizzato per confrontare dati accoppiati (paired). Viene utilizzato quando i dati non sono normalmente distribuiti.

Anche in questo caso proviamo a rispondere alla domanda: esiste una differenza significativa nell’effettuare l’analisi prima e dopo?

Anche in questo caso la scelta tra test parametrico (test t di Student) e non parametrico (test di Wilcoxon) può essere fatta mediante analisi della gaussianità dei dati. Per poter controllare la ‘normalità’ dei dati, dobbiamo aggiungere al dataset originario una colonna con una nuova variabile, la Differenza (presa con il segno).

La normalità viene calcolata con uno Shapiro test, se il p-value è inferiore a 0.05 allora i dati non sono distribuiti in modo gaussiano e si può utilizzare il test di Wilcoxon.

wilcox.test(Subito, Dopo_x_ore, paired=TRUE)