Machine Learning

0.0(0)
studied byStudied by 0 people
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/20

encourage image

There's no tags or description

Looks like no tags are added yet.

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

21 Terms

1
New cards

Intelligenza artificiale

Riproduzione parziale dell’attività intellettuale propria dell’uomo (con particolare riguardo ai processi di apprendimento, di riconoscimento, di scelta) realizzata o attraverso l’elaborazione di modelli ideali, o concretamente, con la messa a punto di macchine che utilizzano per lo più a tale fine elaboratori elettronici.

2
New cards

Quali tematiche copre l’AI?

  1. Trial and Error Search, Heuristics, Evolutionary computing Knowledge

  2. Representation and Reasoning

  3. Automated Theorem Proving

  4. Expert Systems

  5. Planning, Coordination and Manipulation Intelligent Agents

  6. Robotics

  7. Automatic Programming

  8. Natural Language Processing Vision and Speech

  9. Machine Learning (ML).

3
New cards

Cosa fa un sistema di Machine Learning?

Un sistema di Machine Learning (apprendimento automatico) durante la fase di training apprende a partire da esempi (in modo più o meno supervisionato). Successivamente è in grado di generalizzare e gestire nuovi dati nello stesso dominio applicativo. Più formalmente: “impara dagli esempi a migliorare le proprie prestazioni per la gestione di nuovi dati provenienti dalla stessa sorgente” (Mickey 91).

4
New cards

Algoritmo

Un insieme di regole e tecniche statistiche utilizzate per apprendere modelli dai dati

5
New cards

Modello

viene addestrato utilizzando un algoritmo di apprendimento automatico

6
New cards

Variabile predittore

è/sono una caratteristica/caratteristiche dei dati che può essere utilizzata per prevedere l'output

7
New cards

Variabile di risposta

È la caratteristica o la variabile di output che deve essere prevista utilizzando la/le variabile/i predittive

8
New cards

Training data

sono i dati (70%) con i quali è costruito il modello di machine learning

9
New cards

Testing data

sono i dati (30%)con i quali è valutato il modello di machine learning

10
New cards

Processo di Machine Learning

  1. Definizione del Problem Statement: che variabili voglio predire (numero o classe), come classifico i dati?

  2. Data Gathering, manuale o dal web.

  3. Data Preparation, pulizia generale (rimozione dati corrotti/non necessari, identificazione missing values, etc). Ordinare il dataset è molto importante: ogni variabile forma una colonna, ogni osservazione forma una riga ed ugni unità osservazionale forma una tabella.

  4. Analisi esplorativa dei dati (EDA), per comprendere i trend e le caratteristiche dei dati, molto spesso con grafici.

  5. Costruzione di un modello predittivo di machine learning, dividendo il dataset in 70% training data e 30% test data.

  6. Test di valutazione del modello ed ottimizzazione, in base all’accuracy del modello ed eventuali migliorie.

  7. Predizioni.

11
New cards

Generalizzazione

si intende l’abilità di una macchina di portare a termine in maniera accurata esempi o compiti nuovi, che non ha mai affrontato, dopo aver fatto esperienza su un insieme di dati di apprendimento. La generalizzazione si riferisce a quanto bene i concetti appresi da un modello di apprendimento automatico si applicano ad esempi specifici non visti dal modello durante l’apprendimento stesso. Non è un caso che l’obiettivo di un buon modello di apprendimento automatico generalizzare bene dai dati di addestramento a tutti i dati del dominio problematico. Questo ci consente di fare previsioni in futuro sui dati che il modello non ha mai visto.

12
New cards

Underfitting e overfitting

termini come sovra-adattamento (o meglio overfitting) e sotto-adattamento (underfitting) si riferiscono a carenze che potrebbero subire le prestazioni del modello.

13
New cards

Come si evita l’overfitting?

  1. Utilizza la convalida incrociata (cross-validation).

  2. Allena il modello con più dati.

  3. Rimuovi le funzionalità/caratteristiche.

  4. Esegui un arresto anticipato.

  5. Regolarizzazione.

14
New cards

Come capire se siamo di fronte ad Underfitting oppure Overfitting?

Estrapolo le predizioni e verifico l'accuratezza dei risultati sia sui dati di test (test set) che sui dati di addestramento (training set):

→ Se l'errore sui dati di training è elevato, c'è sicuramente un problema di underfitting. Il modello ha generalizzato troppo.

→ Se l'errore sui dati di training è accettabile ma l'errore sui dati di test è elevato, c'è un problema di overfitting. Il modello non ha generalizzato abbastanza.

15
New cards

Apprendimento supervisionato

i dati hanno le etichette delle classi sistema apprende come associare i dati etichettati alle classi;

16
New cards

Apprendimento non supervisionato

tutti i dati sono senza etichette e la procedura di apprendimento consiste sia nel definire le etichette sia nell'associare gli oggetti (osservazioni) alle etichette.

17
New cards

Quali sono le possibili classificazioni dei dati in un sistema supervisionato?

  1. Decision tree

  2. Foresta casuale

  3. K nearest neighbors

18
New cards

Rete neurale

è un modello computazionale composto di "neuroni" artificiali, ispirato vagamente dalla semplificazione di una rete neurale biologica.

19
New cards

Pregi delle reti neurali

Le reti neurali per come sono costruite lavorano in parallelo e sono quindi in grado di trattare molti dati. Si tratta in sostanza di un sofisticato sistema di tipo statistico dotato di una buona immunità al rumore (quindi overfitting); se alcune unità del sistema dovessero funzionare male, la rete nel suo complesso avrebbe delle riduzioni di prestazioni ma difficilmente andrebbe incontro ad un blocco del sistema.

20
New cards

Difetti delle reti neurali

I modelli prodotti dalle reti neurali, anche se molto efficienti, non sono spiegabili in linguaggio simbolico umano: i risultati vanno accettati "così come sono", da cui anche la definizione inglese delle reti neurali come "black box": in altre parole, a differenza di un sistema algoritmico come decision tree, random forest, ecc, dove si può esaminare passo-passo il percorso che dall'input genera l'output, una rete neurale è in grado di generare un risultato valido, o comunque con un’alta probabilità di essere accettabile, ma non è possibile spiegare come e perché tale risultato sia stato generato. Non esistono teoremi o modelli che permettano di definire la rete ottima, quindi la riuscita di una rete dipende molto dall'esperienza del creatore.

21
New cards

Utilizzi delle reti neurali

Negli ultimi anni è aumentata notevolmente la loro importanza anche nel campo della bioinformatica nel quale vengono utilizzate per la ricerca di pattern funzionali e/o strutturali in proteine e acidi nucleici. Mostrando opportunamente una lunga serie di input (fase di training o apprendimento), la rete è in grado di fornire l'output più probabile.