1/55
Flashcard di ripasso basate sugli appunti del corso di Machine Learning riguardanti tipi di apprendimento, statistiche, architetture neurali e algoritmi di ottimizzazione.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai | Chat |
|---|
No analytics yet
Send a link to your students to track their progress
Intelligenza Artificiale
Sistemi in grado di imitare il comportamento umano attraverso calcoli e algoritmi.
Machine Learning
Algoritmi capaci di apprendere dagli esempi senza la necessità di essere programmati specificamente per determinati compiti.
Deep Learning
Sottoinsieme del Machine Learning in cui le macchine apprendono la rappresentazione dei dati attraverso la composizione di funzioni.
Generative models
Modelli capaci di generare nuovi dati correlati a esempi passati.
Supervised Learning (Induttivo)
Tipo di apprendimento in cui i dati di addestramento contengono sia input che output desiderati.
Unsupervised Learning
Tipo di apprendimento in cui i dati di addestramento contengono solo input e il modello deve dedurre relazioni o raggruppamenti.
Semi-supervised Learning
Apprendimento in cui il training set include solo alcuni output desiderati tra i dati di input.
Reinforcement Learning
Modello che cerca di massimizzare una ricompensa P derivante da una sequenza di azioni in risposta a determinati stati X.
Regressione
Compito di apprendimento supervisionato in cui l'obiettivo è predire una funzione F(X)×in cui F(X)×appartiene a ×R.
Classificazione
Compito di apprendimento supervisionato in cui ogni campione appartiene a una ed una sola classe in un insieme finito H=h1,h2,×…, hn.
Clustering
Obiettivo principale dell'Unsupervised Learning, che consiste nello scoprire relazioni intrinseche e raggruppamenti all'interno dei dati.
Variabile casuale discreta
Variabile associata a una Funzione di Massa di Probabilità (PMF) P:X→R in cui \times \text{∑} \times P(x_i) = 1.
Variabile casuale continua
Variabile che assume valori in un insieme continuo, associata a una Funzione di Densità di Probabilità (PDF) p(x) tale che \times \text{∫} \times p(x)dx = 1.
Valore atteso (discreto)
Somma pesata dei valori per la loro probabilità: \times \text{⌒}_x[f(x)] = \text{∑} P(x)f(x).
Valore atteso (continuo)
Integrale della funzione per la sua densità: \times \text{⌒}_x[f(x)] = \times \text{∫} \times p(x)f(x)dx.
Legge dei Grandi Numeri
Afferma che è possibile approssimare il valore atteso di una funzione mediante la media aritmetica su un numero elevato di campioni indipendenti: \times \text{lim}_{n \rightarrow \text{∞}} \frac{1}{n} \times \text{∑} \times f(x_i) = \text{⌒}_x[f(x)].
Batch Learning
Tecnica in cui l'algoritmo riceve in anticipo tutti i dati di addestramento e apprende in un'unica fase prima di quella operativa.
Incremental Learning
Evoluzione del Batch Learning in cui nuovi dati vengono periodicamente utilizzati per migliorare le prestazioni del modello già addestrato.
Natural / Lifelong Learning
Tipo di addestramento in cui il sistema riceve feedback in tempo reale durante la fase operativa per migliorare le prestazioni.
Dati categorici
Dati che rappresentano caratteristiche qualitative o appartenenza a insiemi finiti, spesso codificati tramite One-Hot Encoding.
One-Hot Encoding
Codifica per dati categorici in cui una scelta con k valori distinti diventa un vettore con k componenti, dove solo 1 bit è impostato a 1.
Spazio delle ipotesi
La famiglia di tutte le funzioni ottenibili variando i parametri θ all'interno di un particolare algoritmo di Machine Learning.
Funzione di perdita (Loss function)
Misura ×L(θ,Train)×che quantifica quanto le previsioni del modello differiscono dai dati reali.
Overfitting
Fenomeno in cui un modello troppo complesso si adatta eccessivamente ai dati di addestramento (compreso il rumore), perdendo capacità di generalizzazione.
Errore di Bias
Errore causato da assunzioni errate nell'algoritmo, come l'incapacità dello spazio delle ipotesi di contenere la funzione target.
Errore di Varianza
Errore dovuto alla sensibilità del modello alle piccole fluttuazioni nel set di addestramento.
Teorema No Free Lunch
Teorema che afferma che, a priori, nessun algoritmo di apprendimento è migliore di un altro se valutato su tutte le possibili distribuzioni di dati.
Generalizzazione
La capacità di un algoritmo di mantenere prestazioni simili sia sul training set che su dati nuovi e mai visti in precedenza.
K-fold cross validation
Tecnica che divide i dati in k sottoinsiemi, usando alternativamente ogni parte come test set per ottenere una stima stabile della performance.
Dataset Augmentation
Pratica di espandere il training set applicando trasformazioni casuali (come riflesso, ridimensionamento, rotazione) che non alterano il significato dell'input.
Regolarizzazione di Tikhonov (L2)
Aggiunta alla funzione di perdita di un termine proporzionale alla somma dei quadrati dei parametri: R(\theta) = \text{∑} a_i^2.
Accuracy
Rapporto tra il numero di campioni correttamente classificati e il totale dei campioni: NtotalNcorrect.
Confusion Matrix (Matrice di classificazione)
Tabella che mostra il numero effettivo di campioni per ogni combinazione di classe vera e classe assegnata dal sistema.
Precisione
Rapporto tra veri positivi e il totale dei campioni classificati come positivi: TP+FPTP.
Recall (Recupero)
Rapporto tra veri positivi e il totale dei campioni effettivamente positivi: TP+FNTP.
F1-score
Media armonica tra precisione e recall, utile per bilanciare le due metriche in un unico valore: 2×Precision+RecallPrecision×Recall.
Curva ROC (Receiver Operating Characteristic)
Grafico che rappresenta la relazione tra il tasso dei veri positivi (TP rate) e quello dei falsi positivi (FP rate) al variare della soglia τ.
Neurone di McCulloch & Pitts (1943)
Primo modello di neurone artificiale composto da ingressi pesati, bias e una funzione di attivazione a gradino (step function).
Percettrone di Rosenblatt (1956)
Evoluzione del neurone artificiale che introduce un algoritmo di addestramento supervisionato per aggiornare i pesi in base agli errori.
Regola di aggiornamento del percettrone
Formula per modificare i pesi: wi→wi+r×(tj−yj)×xji.
Problema XOR
Famoso limite del singolo percettrone, che non è in grado di risolvere problemi non linearmente separabili.
Architettura Feed-forward
Configurazione di rete neurale in cui i neuroni sono organizzati in strati (input, hidden, output) e i collegamenti vanno solo in avanti.
MLP (Multi-Layer Perceptron)
Rete neurale feed-forward con almeno uno strato nascosto e funzioni di attivazione non lineari.
Teorema dell'Approssimazione Universale
Afferma che una MLP con un solo hidden layer può approssimare qualsiasi funzione continua con precisione arbitraria.
Gradient Descent (Discesa del gradiente)
Algoritmo iterativo per minimizzare la Loss seguendo la direzione opposta del gradiente: w→w−η×∇L(w).
Backpropagation
Algoritmo introdotto nel 1986 che permette di addestrare reti profonde propagando l'errore dall'output all'input tramite la regola della catena (chain rule).
Stochastic Gradient Descent (SGD)
Metodo che approssima il gradiente totale calcolandolo su un singolo campione o su un piccolo gruppo di esempi chiamato mini-batch.
Epoca (Epoch)
Un passaggio completo dell'algoritmo di addestramento su tutti gli esempi presenti nel dataset di training.
Early stopping
Tecnica di regolarizzazione che consiste nell'interrompere l'addestramento quando l'errore sul set di validazione inizia ad aumentare per evitare l'overfitting.
Momentum
Tecnica che accelera la discesa del gradiente e riduce le oscillazioni accumulando una parte della direzione del passo precedente.
Funzione Sigmoide (σ)
Funzione di attivazione a curva ad S che restituisce valori in (0,1): σ(net)=1+e−net1.
Derivata della Sigmoide
Espressione matematica cruciale per il backpropagation: σ(net)×(1−σ(net)) con valore massimo pari a 0.25.
Tangente iperbolica (tanh)
Funzione di attivazione centrata in 0 che restituisce valori in (−1,1), permettendo un apprendimento spesso più veloce rispetto alla sigmoide.
MSE (Mean Square Error)
Funzione di perdita per la regressione che calcola la media dei quadrati delle differenze tra target e output.
Binary Cross-Entropy (BCE)
Funzione di perdita ideale per la classificazione binaria: L=−[t×log(y)+(1−t)×log(1−y)].
Saturazione del gradiente
Problema che si verifica con la sigmoide quando l'input è molto grande o molto piccolo, rendendo la derivata prossima allo zero e bloccando l'apprendimento.