Data Reduction and Statistical Learning

0.0(0)
studied byStudied by 0 people
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/54

flashcard set

Earn XP

Description and Tags

Flashcards in Italian for vocabulary review from lecture notes.

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

55 Terms

1
New cards

DATA REDUCTION APPRENDIMENTO STATISTICO

Riduzione dei dati che utilizza variabili di input (X, variabile indipendente) e variabili output (y, dipendente) per stimare la relazione tra variabili.

2
New cards

Metodi Parametrici

Metodo per stimare una funzione ignota f assumendo una forma specifica per f e stimando i parametri del modello.

3
New cards

Metodi non Parametrici

Metodo per stimare una funzione ignota f senza assumerne la forma in partenza, cercando di avvicinarsi il più possibile alle osservazioni.

4
New cards

Metodi Supervisonati

Metodi di apprendimento che cercano di adattare un modello che colleghi una variabile risposta a dei predittori.

5
New cards

Metodi NON supervisonati

Metodi di apprendimento che lavorano senza una variabile risposta (clustering).

6
New cards

Modello parsimonioso

Un modello semplice che usa poche variabili, facile da interpretare e con meno rischio di overfitting.

7
New cards

Modello black box

Modello complesso, difficile da interpretare e che usa tante variabili, con alta accuratezza predittiva ma poca interpretabilità.

8
New cards

Errore Quadratico Medio (MSE)

Metrica per valutare l’accuratezza di un modello, misura l’errore di previsione sui dati nuovi (non test).

9
New cards

Bias

Errore dovuto a una semplificazione eccessiva in un modello.

10
New cards

Varianza

Sensibilità di un modello a cambiamenti nei dati di training.

11
New cards

Cross-validation

Strumento per stimare il test MSE senza dati di test esterni.

12
New cards

CLASSIFICATORE DI BAYES

Classificatore che assegna ad ogni osservazione la classe con la probabilità condizionata più alta.

13
New cards

KNN (K nearest Neighbour)

Metodo che fa previsioni guardando i punti più vicini nel training set.

14
New cards

REGRESSIONE LINEARE

Strumento per prevedere una variabile quantitativa basato sull’assunto di una relazione lineare tra variabili.

15
New cards

Metodo dei minimi quadrati

Metodo per stimare i coefficienti nella regressione lineare, minimizzando la somma dei quadrati delle differenze tra valori osservati e previsti.

16
New cards

CLASSIFICAZIONE

Costruire un classificatore f(x) che prenda come input il vettore x e restituisca un’etichetta di classe per Y.

17
New cards

REGRESSIONE LOGISTICA

Metodo spesso usato per la classificazione binaria, che modella la probabilità che un'osservazione appartenga a una classe.

18
New cards

MASSIMA VEROSIMIGLIANZA

Metodo per stimare i parametri nella regressione logistica, trovando i valori dei coefficienti che rendono più probabili i dati osservati.

19
New cards

Modelli generativi per la classificazione

Modello che cerca di modellare come sono fatti i dati in ogni classe.

20
New cards

LDA- ANALISI DISCRIMINANTE LINEARE

Modello generativo che modellizza le distribuzioni dei vari X per ognuna della classi di risposta di Y, utile quando le classi sono ben separate.

21
New cards

ANALISI DISCRIMINANTE QUADRATICA

A differenza dell'analisi discriminante lineare(LDA), questa permette ad ogni classe di avere la propria matrice di varianza/covarianza.

22
New cards

Tassi di Errore

La proporzione tra osservazioni e osservazioni classificate male, misurata sui dati di training e test.

23
New cards

Falso Positivo

Osservazioni negative classificate come positive.

24
New cards

Falso Negativo

Osservazioni positive classificate come negative.

25
New cards

METODI DI RESAMPLING

Prendere più sottoinsiemi o versioni diverse del dataset per stimare l’errore di test e confrontare modelli.

26
New cards

The Validation Set Approach

Dividere il dataset in un training set e un validation set per testare il modello.

27
New cards

Leave-One-Out Cross-Validation (LOOCV)

Metodo che lascia una sola osservazione fuori, costruisce il modello con le altre, e testa su quella esclusa, ripetendo per tutte le osservazioni.

28
New cards

K-FOLD- CROSS VALIDATION

Dividere il dataset in k parti uguali (fold) e usare ciascun fold come test set e la restante parte come training.

29
New cards

IL BOOTSTRAP

Tecnica di ricampionamento per stimare la variabilità di una stima.

30
New cards

BEST SUBSET SELECTION

Algoritmo che prova tutti i possibili sottoinsiemi di predittori, costruendo un modello per ciascuno e scegliendo il migliore.

31
New cards

FORWARD e BACKWARD stepwise selection

Approcci che non esplorano tutto lo spazio dei modelli ma seguono un percorso più intelligente, come forward e backward selection.

32
New cards

CP mallows

Misura l’errore di test atteso, usando una stima dell’errore fatta con l’RSS del modello.

33
New cards

AIC

Criterio basato su un principio di verosimiglianza per misurare quanto bene il modello si adatta ai dati, con una penalità per la complessità.

34
New cards

BIC

Simile ad AIC ma più conservativo, penalizza più severamente la complessità del modello.

35
New cards

REGRESSIONE POLINOMIALE

Modellare la funzione aggiungendo potenze a X per catturare la curva della regressione.

36
New cards

STEP FUCTIONS

Suddividere l’intervallo dei valori assunti da x in k sottointervalli e assumere che la funzione sia costante all’interno di ciascun intervallo.

37
New cards

SPLINE

Un insieme di polinomi collegati tra loro in punti chiamati nodi e vincolati ad avere continuità e derivabilità.

38
New cards

Spline LINEARI

Spline composta da polinomi di 1 grado collegate dai nodi, continue ma senza continuità nelle derivate.

39
New cards

Spline CUBICHE

Spline dove ogni intervallo tra due nodi è un polinomio di 3 grado, continue e con continuità anche nelle prime due derivate.

40
New cards

Spline CUBICHE NATURALI

Variante delle spline cubiche con condizioni aggiuntive agli estremi per evitare un comportamento troppo contorto.

41
New cards

SMOOTHING SPLINES

Non specifichi tu i nodi: ce n’è uno per ogni punto del dataset, ma controlli quanto la curva può incurvarsi.

42
New cards

REGRESSIONE LOCALE

Adatta una funzione semplice solo nei dintorni del punto di interesse, creando tante piccole regressioni locali.

43
New cards

ANOVA MODELLI AD ALBERO

Modelli non parametrici che segmentano lo spazio dei predittori tramite una sequenza gerarchica di regole di tipo “se… allora…”.

44
New cards

POTATURA

Tecniche per tagliare i rami di un albero che non migliorano l’accuratezza sul validation set.

45
New cards

ALBERI DI CLASSIFICAZIONE

Modello ad albero dove la struttura è identica a quelle degli alberi di regressione ma cambia il criterio di splitting.

46
New cards

IL BAGGING

Si creano tanti alberi, ognuno viene allenato su un dataset diverso ottentuo facendo bootstrap, cioe prendneo campioni causali creati con ripetzione dal dataset originale.

47
New cards

RANDOM FORESTS

Variante del bagging migliorata, che aggiunge che ogni volta che un albero deve scegliere una variabile per dividere, gli si dà solo un sottoinsieme casuale delle variabili totali.

48
New cards

BOOSTING

Costruire alberi uno dopo l’altro e a ogni albero cercare di correggere gli errori del precedente.

49
New cards

BORGATTI

Affronta un problema fondamentale nella Social Network Analysis: le misure di centralità che utilizziamo davvero ci dicono qualcosa di utile?

50
New cards

TOPIC MODELLING APPRENDIMENTO NON SUPERVISIONATO

E’ una famiglia di metodi che lavorano solo i predittori (x) senza una variabile risposta (Y).

51
New cards

PCA

cerca combinazioni lineari delle variabili che massiminzzano la varianza e sono incorrelate tra loro.

52
New cards

CLUSTERING

trovare gruppi (cluster)omogenei all’interno di un insieme di osservazioni, senza sapere prima quali siano.

53
New cards

K-MEANS CLUSTERING

consiste nel dividere le n osservazioni in k gruppi, uno diverso dall’altro cioe che non si sovrappongono, minimizzando la varianza esterna a ogni gruppo

54
New cards

HIERICAL CLUSTERING

E’ un alternativa che non richiede K a priori, si costruisice un dendogramma che mostra tutti i possibili ragruppamenti, da ogni punto come cluster separato fino ad un unico cluster.

55
New cards

SOCIAL NETWORK ANALYSIS

un metodo per analizzare le relazioni tra attori (individui, gruppi, organizzazioni) Studia le connessioni tra attori la loro struttura di rete.