1/54
Flashcards in Italian for vocabulary review from lecture notes.
Name | Mastery | Learn | Test | Matching | Spaced |
---|
No study sessions yet.
DATA REDUCTION APPRENDIMENTO STATISTICO
Riduzione dei dati che utilizza variabili di input (X, variabile indipendente) e variabili output (y, dipendente) per stimare la relazione tra variabili.
Metodi Parametrici
Metodo per stimare una funzione ignota f assumendo una forma specifica per f e stimando i parametri del modello.
Metodi non Parametrici
Metodo per stimare una funzione ignota f senza assumerne la forma in partenza, cercando di avvicinarsi il più possibile alle osservazioni.
Metodi Supervisonati
Metodi di apprendimento che cercano di adattare un modello che colleghi una variabile risposta a dei predittori.
Metodi NON supervisonati
Metodi di apprendimento che lavorano senza una variabile risposta (clustering).
Modello parsimonioso
Un modello semplice che usa poche variabili, facile da interpretare e con meno rischio di overfitting.
Modello black box
Modello complesso, difficile da interpretare e che usa tante variabili, con alta accuratezza predittiva ma poca interpretabilità.
Errore Quadratico Medio (MSE)
Metrica per valutare l’accuratezza di un modello, misura l’errore di previsione sui dati nuovi (non test).
Bias
Errore dovuto a una semplificazione eccessiva in un modello.
Varianza
Sensibilità di un modello a cambiamenti nei dati di training.
Cross-validation
Strumento per stimare il test MSE senza dati di test esterni.
CLASSIFICATORE DI BAYES
Classificatore che assegna ad ogni osservazione la classe con la probabilità condizionata più alta.
KNN (K nearest Neighbour)
Metodo che fa previsioni guardando i punti più vicini nel training set.
REGRESSIONE LINEARE
Strumento per prevedere una variabile quantitativa basato sull’assunto di una relazione lineare tra variabili.
Metodo dei minimi quadrati
Metodo per stimare i coefficienti nella regressione lineare, minimizzando la somma dei quadrati delle differenze tra valori osservati e previsti.
CLASSIFICAZIONE
Costruire un classificatore f(x) che prenda come input il vettore x e restituisca un’etichetta di classe per Y.
REGRESSIONE LOGISTICA
Metodo spesso usato per la classificazione binaria, che modella la probabilità che un'osservazione appartenga a una classe.
MASSIMA VEROSIMIGLIANZA
Metodo per stimare i parametri nella regressione logistica, trovando i valori dei coefficienti che rendono più probabili i dati osservati.
Modelli generativi per la classificazione
Modello che cerca di modellare come sono fatti i dati in ogni classe.
LDA- ANALISI DISCRIMINANTE LINEARE
Modello generativo che modellizza le distribuzioni dei vari X per ognuna della classi di risposta di Y, utile quando le classi sono ben separate.
ANALISI DISCRIMINANTE QUADRATICA
A differenza dell'analisi discriminante lineare(LDA), questa permette ad ogni classe di avere la propria matrice di varianza/covarianza.
Tassi di Errore
La proporzione tra osservazioni e osservazioni classificate male, misurata sui dati di training e test.
Falso Positivo
Osservazioni negative classificate come positive.
Falso Negativo
Osservazioni positive classificate come negative.
METODI DI RESAMPLING
Prendere più sottoinsiemi o versioni diverse del dataset per stimare l’errore di test e confrontare modelli.
The Validation Set Approach
Dividere il dataset in un training set e un validation set per testare il modello.
Leave-One-Out Cross-Validation (LOOCV)
Metodo che lascia una sola osservazione fuori, costruisce il modello con le altre, e testa su quella esclusa, ripetendo per tutte le osservazioni.
K-FOLD- CROSS VALIDATION
Dividere il dataset in k parti uguali (fold) e usare ciascun fold come test set e la restante parte come training.
IL BOOTSTRAP
Tecnica di ricampionamento per stimare la variabilità di una stima.
BEST SUBSET SELECTION
Algoritmo che prova tutti i possibili sottoinsiemi di predittori, costruendo un modello per ciascuno e scegliendo il migliore.
FORWARD e BACKWARD stepwise selection
Approcci che non esplorano tutto lo spazio dei modelli ma seguono un percorso più intelligente, come forward e backward selection.
CP mallows
Misura l’errore di test atteso, usando una stima dell’errore fatta con l’RSS del modello.
AIC
Criterio basato su un principio di verosimiglianza per misurare quanto bene il modello si adatta ai dati, con una penalità per la complessità.
BIC
Simile ad AIC ma più conservativo, penalizza più severamente la complessità del modello.
REGRESSIONE POLINOMIALE
Modellare la funzione aggiungendo potenze a X per catturare la curva della regressione.
STEP FUCTIONS
Suddividere l’intervallo dei valori assunti da x in k sottointervalli e assumere che la funzione sia costante all’interno di ciascun intervallo.
SPLINE
Un insieme di polinomi collegati tra loro in punti chiamati nodi e vincolati ad avere continuità e derivabilità.
Spline LINEARI
Spline composta da polinomi di 1 grado collegate dai nodi, continue ma senza continuità nelle derivate.
Spline CUBICHE
Spline dove ogni intervallo tra due nodi è un polinomio di 3 grado, continue e con continuità anche nelle prime due derivate.
Spline CUBICHE NATURALI
Variante delle spline cubiche con condizioni aggiuntive agli estremi per evitare un comportamento troppo contorto.
SMOOTHING SPLINES
Non specifichi tu i nodi: ce n’è uno per ogni punto del dataset, ma controlli quanto la curva può incurvarsi.
REGRESSIONE LOCALE
Adatta una funzione semplice solo nei dintorni del punto di interesse, creando tante piccole regressioni locali.
ANOVA MODELLI AD ALBERO
Modelli non parametrici che segmentano lo spazio dei predittori tramite una sequenza gerarchica di regole di tipo “se… allora…”.
POTATURA
Tecniche per tagliare i rami di un albero che non migliorano l’accuratezza sul validation set.
ALBERI DI CLASSIFICAZIONE
Modello ad albero dove la struttura è identica a quelle degli alberi di regressione ma cambia il criterio di splitting.
IL BAGGING
Si creano tanti alberi, ognuno viene allenato su un dataset diverso ottentuo facendo bootstrap, cioe prendneo campioni causali creati con ripetzione dal dataset originale.
RANDOM FORESTS
Variante del bagging migliorata, che aggiunge che ogni volta che un albero deve scegliere una variabile per dividere, gli si dà solo un sottoinsieme casuale delle variabili totali.
BOOSTING
Costruire alberi uno dopo l’altro e a ogni albero cercare di correggere gli errori del precedente.
BORGATTI
Affronta un problema fondamentale nella Social Network Analysis: le misure di centralità che utilizziamo davvero ci dicono qualcosa di utile?
TOPIC MODELLING APPRENDIMENTO NON SUPERVISIONATO
E’ una famiglia di metodi che lavorano solo i predittori (x) senza una variabile risposta (Y).
PCA
cerca combinazioni lineari delle variabili che massiminzzano la varianza e sono incorrelate tra loro.
CLUSTERING
trovare gruppi (cluster)omogenei all’interno di un insieme di osservazioni, senza sapere prima quali siano.
K-MEANS CLUSTERING
consiste nel dividere le n osservazioni in k gruppi, uno diverso dall’altro cioe che non si sovrappongono, minimizzando la varianza esterna a ogni gruppo
HIERICAL CLUSTERING
E’ un alternativa che non richiede K a priori, si costruisice un dendogramma che mostra tutti i possibili ragruppamenti, da ogni punto come cluster separato fino ad un unico cluster.
SOCIAL NETWORK ANALYSIS
un metodo per analizzare le relazioni tra attori (individui, gruppi, organizzazioni) Studia le connessioni tra attori la loro struttura di rete.