Statistica essenziale

La biologia quantitativa risponde alla necessità di gestire ed analizzare una grande quantità di informazioni biologiche (dati) derivanti dalle moderne tecnologie molecolari.

La bioinformatica è un campo di ricerca interdisciplinare che viene utilizzato per ottenere in silico risultati da dati biologici, per affinare gli esperimenti in vitro, per costruire database e software di analisi per i successivi esperimenti.

Con data science si intende un processo di studio dei dati (problema, acquisizione dei dati, pulizia dei dati, analisi dei dati, modeling, visualizzazione dei risultati) per comprendere un processo biologico e descriverlo con metodi informatici/statistici. Fornisce:

modelli per l'interpretazione di dati provenienti da esperimenti di biologia al fine di identificare tendenze e leggi numeriche;
nuovi strumenti matematici per l'analisi di dati biologici (sequenze di DNA, RNA e proteine....);
organizza le conoscenze acquisite in database, al fine di rendere tali dati accessibili.

La data science condivide alcuni argomenti con la biologia computazionale (integrazione dell’approccio di laboratorio con risultati in vitro ed in silico ottenuti da metodi informatici e dati biologici) e con la genomica computazionale (studio del genoma tramite metodologie bioinformatiche e statistiche) e spesso coinvolge il sequenziamento di un genoma (determinazione della sequenza lineare di basi del DNA).

L'obiettivo generale dei metodi statistici è quello di utilizzare l'evidenza empirica al fine di migliorare la nostra conoscenza della popolazione target, che comprende l'intero gruppo di individui e oggetti (ad esempio, persone, piante, cellule) che vogliamo studiare. Di conseguenza, le statistiche ci aiutano a prendere decisioni più informate. Studiamo la popolazione di interesse misurando una serie di caratteristiche (ad esempio, età, dimensioni, peso) ovvero variabili, che sono correlate al nostro studio.

In molti studi, vogliamo spiegare o prevedere come cambia una variabile rispetto ad altre variabili. Cioè, vogliamo identificare possibili relazioni tra diverse variabili. Ci riferiamo alle variabili che sono l'obiettivo principale del nostro studio come variabili di risposta (o target o qualitativa ordinale o categorica). Al contrario, chiamiamo variabili che spiegano o prevedono la variazione nella variabile di risposta come variabili esplicative o predittori (quantitativa discreta o continua). L'analisi statistica inizia con un problema scientifico solitamente presentato sotto forma di test di ipotesi o di un problema di previsione. Il test di ipotesi si riferisce al processo di esame di una ipotesi scientifica che spiega un fenomeno. In generale, i problemi di verifica delle ipotesi possono essere considerati come problemi decisionali, in cui dobbiamo decidere di accettare o rifiutare la spiegazione proposta per il fenomeno. I metodi statistici sono utilizzati per valutare un'ipotesi basata su dati empirici. Usando questi metodi, possiamo decidere se rifiutare un'ipotesi o meno. Tali decisioni a loro volta ci aiutano a prendere decisioni più informate rispetto al problema scientifico che ha ispirato il nostro studio.

Campionamento

I metodi statistici servono per descrivere e fare ipotesi sui dati rilevati (variabili) in un certo campione selezionato da una popolazione di riferimento (ovvero la totalità degli individui di interesse) e con con i metodi di inferenza statistica, le conclusioni basate sul campione possono essere cautamente attribuite all'intera popolazione. I campioni sono selezionati casualmente (cioè con una certa probabilità) dalla popolazione. Salvo diversa indicazione, si presume che questi membri selezionati casualmente delle popolazioni siano indipendenti. Informalmente, ciò significa che i membri selezionati non sono correlati tra loro e la selezione di uno di essi non influisce sulla selezione di un altro. L'utilizzo delle tecniche di ampionamento appropriate (ad esempio, la progettazione del campionamento) è fondamentale per trarre conclusioni valide.

Tutta la statistica inferenziale è basata sul processo che permette, con un certo grado di certezza, di estendere alla popolazione le conclusioni ottenute osservando il campione. La variabilità sperimentale può portare per puro effetto del caso a risultati diversi in diversi campionamenti, quindi affinché le ipotesi derivate dal campione siano affidabili, il campione deve essere rappresentativo della popolazione. La rappresentatività di un campione è funzione della sua numerosità (direttamente proporzionale alla rappresentatività) ed eterogeneità (tutte le caratteristiche della popolazione devono essere rispecchiate dal campione), in assenza di queste caratteristiche il campione si definisce distorto. Per garantire la rappresentatività della popolazione, si ricorre al campionamento casuale. Esso prevede che tutte le unità della popolazione abbiano uguale probabilità di essere selezionate.

Un campione casuale è un campione estratto da una popolazione che soddisfa due criteri: ogni unità nella popolazione deve avere uguale probabilità di essere inclusa nel campione e la selezione delle unità deve essere indipendente. Il campionamento casuale riduce al minimo la distorsione e permette di quantificare l’errore di campionamento.

Studi osservazionali ed analisi dei dati

Dopo aver ottenuto il campione, raccogliamo informazioni rilevanti per il nostro studio dai membri selezionati. In genere lo facciamo attraverso uno studio osservazionale o un esperimento. Negli studi osservazionali, i ricercatori sono esaminatori passivi che cercano di avere il minimo impatto sugli eventi e sul processo di raccolta dei dati. Possono semplicemente misurare i valori correnti di tutte le caratteristiche rilevanti (ad esempio, temperatura corporea, frequenza cardiaca, sesso) per il campione o osservare come queste caratteristiche cambiano nel tempo. Sfortunatamente, è difficile stabilire la causalità sulla base di studi osservazionali. In generale, cerchiamo di stabilire relazioni causali utilizzando esperimenti randomizzati, in cui i ricercatori cercano di controllare il processo il più possibile. In un esperimento randomizzato, le unità di campionamento (denominate anche unità sperimentali o soggetti) vengono assegnate in modo casuale a trattamenti diversi. La randomizzazione, che si riferisce all'assegnazione casuale di soggetti a trattamenti diversi, è un concetto chiave nella progettazione di esperimenti. Aiuta a controllare l'influenza dei fattori confondenti.

Dopo aver selezionato il campione e raccolto i dati, il passo successivo verso l'inferenza statistica e il processo decisionale consiste nell'eseguire l'esplorazione dei dati, che comporta la visualizzazione e il riepilogo dei dati. Utilizzando tecniche di visualizzazione dei dati, possiamo conoscere la distribuzione di una variabile. Informalmente, la distribuzione di una variabile ci dice i possibili valori che può assumere, la possibilità di osservare quei valori e quanto spesso ci aspettiamo di vederli in un campione casuale dalla popolazione. Utilizzando la visualizzazione dei dati, possiamo anche conoscere le possibili relazioni tra variabili. Attraverso la visualizzazione dei dati, potremmo rilevare modelli e relazioni precedentemente sconosciuti che meritano ulteriori indagini. La visualizzazione può anche aiutarci a identificare possibili problemi di dati, come misurazioni impreviste o insolite, note come valori anomali (outlier).

Per rendere i dati più gestibili, dobbiamo ridurre ulteriormente la quantità di informazioni in alcuni modi significativi in modo da poterci concentrare sugli aspetti chiave dei dati, utilizzando statistiche riassuntive. Ad esempio, la media (mean) dei valori osservati è una statistica che viene comunemente utilizzata come rappresentazione di un singolo valore per l'intero campione. Rappresenta i valori tipici che ci aspettiamo di vedere per una variabile specifica.

Inferenza statistica

L’inferenza statistica permette di descrivere un fenomeno campionario estendendolo all’intera popolazione con un certo grado di incertezza (quantificabile con la probabilità) e servendosi di indicatori sintetici della statistica descrittiva.

Una volta rilevate le variabili sul campione, il primo step è quello di stimare ciò che accade nella popolazione. Le misure ottenute sono caratterizzate da una distribuzione campionaria. Il processo di stima è il calcolo di alcune caratteristiche della distribuzione come:

La media è un indice di posizione, ossia dove è centrata la distribuzione;
La varianza è un indice di di variabilità, ossia quanto sono disperse le misure (rispetto al valore medio);
La probabilità di successo di un evento è la probabilità di occorrenza di un evento dato un certo numero di rilevazioni.

Gli individui in un campione hanno generalmente diversi valori della grandezza analizzata. Si può vedere questa variabilità considerando una distribuzione di frequenza. La frequenza di una particolare misura in un campione è il numero di osservazioni di un determinato valore della misura. La distribuzione di frequenza è una rappresentazione del numero di volte che ogni valore di una variabile si osserva in un campione. La distribuzione di una variabile in tutta la popolazione è detta distribuzione di probabilità.

Il modo più comune di rappresentare una distribuzione campionaria è il grafico ad istogramma che mostra la frequenza di occorrenza nel campione di una certa misura. Nel grafico ogni rettangolo rappresenta un carattere e l’area di questo è proporzionale alla frequenza del carattere.

L’inferenza statistica mira alla verifica di un’ipotesi relativa alle caratteristiche della popolazione. Occorre quindi formulare un’ipotesi e valutare la probabilità di ottenere i risultati nella popolazione se l’ipotesi fosse vera. Quindi:

Estrazione di un campione dalla popolazione
calcolo delle statistiche campionarie (media, etc)
stima dei parametri nella popolazione in base ai risultati del campione (inferenza)
Accettare o rifiutare l’ipotesi

Si definisce test statistico lo strumento che consente di decidere circa o meno l’attendibilità dell’ ipotesi (rifiutare o non rifiutare l’ipotesi). In particolare il test è una procedura che, sulla base di dati campionari e con un certo grado di probabilità, consente di decidere se è ragionevole respingere l’ipotesi nulla H0 (ed accettare implicitamente l’ipotesi alternativa H1) oppure se non esistono elementi sufficienti per respingerla. L’ipotesi statistica è un’assunzione sul valore di un parametro della popolazione (ad es. la media μ).

Formulazione dell’ipotesi nulla (H0) → H0 è l’assunzione che si vuole verificare, formulata in modo tale da poter essere negata dall’esperimento programmato (es. le medie dei due campioni sono uguali μ1=μ2)
Formulazione dell’ipotesi alternativa (H1) → tutte le varie alternative all’ipotesi nulla (es. H1: μ1≠μ2 oppure H1: μ1<μ2 oppure H1: μ1>μ2).

L’ipotesi alternativa deve essere accolta se si rifiuta l’ipotesi nulla.

I test principali per il confronto tra medie sono:

t-test (confronto tra due medie, parametrico)
Wilcoxon test (confronto tra due medie, non parametrico)
ANOVA test (confronto tra più medie, parametrico)
Kruskal-Wallis test (confronto tra più medie, non parametrico)

Distribuzioni

La precisione è legata alla variabilità del dato rispetto alla media: tanto più il dato è variabile, tanto meno è preciso. L’accuratezza invece è la vicinanza tra i dati misurati e il valore reale non noto nella popolazione: tanto più saranno vicini al valore reale, tanto più accurata sarà la misura. Un campione casuale con una numerosità campionaria elevata dovrebbe garantire delle stime accurate e precise. Più aumenta la numerosità e più la gaussiana è precisa.

Esistono diverse distribuzioni di probabilità teoriche utili per approssimare le distribuzioni di frequenza che si incontrano nella vita reale. E’ un modello matematico che collega i valori di una variabile alle probabilità che tali valori possano essere osservati.

Nel caso di una variabile continua, la distribuzione nella popolazione viene approssimata spesso con una distribuzione di probabilità teorica, detta distribuzione normale ( o curva di Gauss). La distribuzione normale (la familiare curva a campana) è forse la distribuzione di probabilità più importante. Si parla di funzione di densità (per distribuzioni continue) o funzione di probabilità (per distribuzioni discrete).

Per le variabili casuali discrete, la funzione di probabilità fornisce la probabilità di ogni valore possibile. Per le variabili casuali continue, il numero di valori possibili non è numerabile e la probabilità di qualsiasi valore specifico è zero. Intuitivamente, puoi pensare di allocare la probabilità totale di 1 tra un numero non numerabile di valori possibili. Pertanto, invece di parlare della probabilità di qualsiasi valore specifico x per la variabile casuale continua X, parliamo della probabilità che il valore della variabile casuale sia all'interno di un intervallo specifico da x1 a x2. "mostriamo questa probabilità come P(x1 < X ≤ x2). Per convenzione, l'intervallo include l'estremità superiore dell'intervallo ma non l'estremità inferiore. Per le variabili casuali continue, utilizziamo funzioni di probabilità di densità (pdf) per specificare la distribuzione. Utilizzando il pdf, possiamo ottenere la probabilità di qualsiasi intervallo.

Ci riferiamo alla curva corrispondente mostrata come curva di densità di probabilità. Si noti che l'altezza di questa curva a qualsiasi valore specifico fornisce la densità in quel punto. Mentre useremo la funzione di densità per trovare probabilità per variabili casuali continue (discusse di seguito), il valore della densità". L'area totale sotto la curva di densità di probabilità è 1. La curva (e la sua funzione corrispondente) fornisce la probabilità che la variabile casuale rientri in un intervallo. Questa probabilità è uguale all'area sotto la curva di densità di probabilità nell'intervallo.

La distribuzione normale o Gaussiana è la distribuzione di probabilità che meglio rappresenta molte variabili biologiche. Si applica bene alle statistiche campionarie. La formula della distribuzione normale è definita dai parametri media (μ) e deviazione standard (s).

Distribuzione teorica di probabilità che riguarda variabili continue con valori compresi tra (-∞,+∞) • Dipende dai parametri μ (media) e σ (deviazione standard);se μ=0 e σ=1 è detta Normale Standard • E’ simmetrica rispetto a μ e moda, media e mediana coincidono in μ

La distribuzione normale ha le seguenti proprietà principali: vE’ una distribuzione continua; la probabilità è quindi data dall’area sottesa dalla curva e non dalla sua altezza vE’ simmetrica rispetto alla media vHa una singola moda vLa densità di probabilità ha il suo valore massimo esattamente in corrispondenza della media • La media, la mediana e la moda coincidono in una distribuzione normale

Nel caso di una variabile distribuita normalmente, circa i 2/3 (68.3%) degli individui sono compresi entro una deviazione standard dalla media, e circa il 95% è compreso entro circa due deviazioni standard dalla media.

I livelli di significatività (α) più usati sono: 0.05 e 0.01 a cui corrispondono gli intervalli di confidenza 0.95 e 0.99 (espressi come 95% e 99%) ovvero u, la cui ampiezza dipende dalla dev.std della popolazione.

Per il teorema del limite centrale, anche in una popolazione che non segue il modello gaussiano le medie campionarie (se calcolate su campioni abbastanza grandi tendono a distribuirsi secondo una legge gaussiana.

Generalmente le distribuzioni sono sempre normali (mo, med, media coincidono grosso modo), ma per capirlo si usano i parametri skweness e kurtosis.

La skewness (asimmetria) è una misura della simmetria, o più precisamente, la mancanza di simmetria. Una distribuzione, o set di dati, è simmetrica se ha lo stesso aspetto a sinistra e a destra del punto centrale. Positive skewness è quando la coda sul lato destro della distribuzione è più lunga o più grassa. La media e la mediana saranno maggiori della moda. Negative skewness è quando la coda sul lato sinistro della distribuzione è più lunga o più grassa. La media e la mediana saranno minori della moda.

Quando l'asimmetria è troppa? La regola empirica sembra essere che:

Se l'asimmetria è compresa tra -1 e 1, i dati sono abbastanza simmetrici.
Se l'asimmetria è compresa tra -2 e -1 (asimmetria negativa) o tra 1 e 2 (asimmetria positiva), i dati sono moderatamente asimmetrici e considerati accettabili.
Se l'asimmetria è minore di -2 (asimmetria negativa) o maggiore di 2 (asimmetria positiva), i dati sono molto asimmetrici, non-normali.

La Kurtosis è una misura del fatto che i dati siano a coda pesante o a coda leggera rispetto a una distribuzione normale. Cioè, il set di dati con un'elevata Kurtosi tendono ad avere code pesanti o valori anomali. Il set di dati con bassa Kurtosi tendono ad avere code leggere o mancanza di valori anomali. Una distribuzione uniforme sarebbe il caso estremo. La Kurtosis si riferisce al Grado di presenza di valori anomali (outliers) nella distribuzione.

Una distribuzione Leptokurtica è più alta rispetto alla distribuzione normale. Il picco più alto risulta dal raggruppamento di punti dati lungo l'asse x. Le code sono anche più lunghe di quelle di una distribuzione normale. Il coefficiente di curtosi si trova di solito superiore a 3. Il termine "lepto" significa magro. In una distribuzione leptocurtica significa che i piccoli cambiamenti sono meno frequenti poiché i valori sono raggruppati attorno alla media. Tuttavia, ci sono anche grandi fluttuazioni rappresentate dalle code lunghe.

Una distribuzione Platykurtica ha punti estremamente dispersi lungo l'asse x, risultando in un picco più basso rispetto alla distribuzione normale. "Platy" significa ampio. Quindi, il prefisso si adatta alla forma della distribuzione, che è ampia e piatta. I punti sono meno raggruppati attorno alla media rispetto alla distribuzione leptocurtica. Il coefficiente di curtosi è generalmente inferiore a 3. Le distribuzioni Mesokurtiche hanno una curva simile a quella della distribuzione normale. In altre parole, la distribuzione è in gran parte normale.

Una delle tecniche più efficaci per trattare i dati che non sono conformi alle assunzioni di un metodo statistico è tentare di sottoporli a una trasformazione che li renda capaci di soddisfare meglio queste assunzioni. Una trasformazione dei dati cambia ogni misura attraverso la stessa formula matematica. Esistono differenti tipi di trasformazione, ma la scelta si basa sulla tipologia di dati da analizzare:

Logaritmica: ln(Y), log10(Y)
Trasformazione radice quadratica: per dati che corrispondono a conteggi, es. numero colonie
trasformazione reciproca (1/Y)
Trasformazione antilogaritmica (eY),
Trasformazione quadratica ($Y^2$),
Arcoseno: per dati che sono espressi come proporzioni, %)

Statistica descrittiva

La statistica descrittiva è utilizzata per comprendere le caratteristiche di un set di dati fornendone gli indici statistici di:

tendenza centrale, ovvero uno scalare che esprime come si manifesta la proprietà

media N di popolazione e n di campione
moda, valore più frequente, solo descrittivo e qualitativo, unimodale o bimodale
mediana, valore centrale dopo riordino crescente. Si sceglie quando si vuole attenuare l’effetto di outliers
Quantili, ripartiscono la distribuzione in 4 quartili (q1: 0-25%, q2: 0-50%, q3: 0-75%) oppure in n quantili. è descrivibile con un boxplot (la linea nera è la mediana)

dispersione, ovvero uno scalare che esprime la diversità tra le osservazioni

campo di variazione, range definito dal valore più grande meno il più piccolo
deviazione standard, indice di variazione dei dati biologici
errore standard della media, descrive la variazione di un campione con n osservazioni
intervalli di confidenza, intervalli stimati in cui è probabile che si trovino i dati, del 95% o del 99%
range interquartile.