9 DL: Natural Language Modeling

0.0(0)
studied byStudied by 0 people
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/10

encourage image

There's no tags or description

Looks like no tags are added yet.

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

11 Terms

1
New cards

You understand what NLP is and why it’s challenging (Definition NLP)

NLP staat voor Natural Language Processing

2
New cards

You know why text must be transformed (Text = Unstructured)

Tekst is ongestructureerde data en moet omgezet worden naar numerieke vectoren voordat je machine learning of deep learning kunt toepassen.

3
New cards

You can describe the NLP pipeline steps (NLP Pipeline)

Typische stappen zijn
 1. Preprocessing (cleaning, normaliseren, stopwoorden verwijderen)
 2. Tokenization (tekst splitsen in woorden of zinnen)
 3. Vectorisatie (tekst omzetten in getallen)
 4. Modelling (bv. classificatie, voorspelling)

4
New cards

You understand tokenization and why it’s the first step (Tokenization)

Tekst wordt opgesplitst in kleine eenheden zoals woorden of subwoorden (tokens), die afzonderlijk kunnen worden geanalyseerd of geteld.

5
New cards

You know how to clean and normalize text (Preprocessing)

Mogelijke bewerkingen
 – Hoofdletters verwijderen
 – Accenten normaliseren
 – HTML tags en leestekens verwijderen
 – Woorden terugbrengen tot basisvorm (stemming / lemmatization)

6
New cards

You understand Bag-of-Words and one-hot encoding (BoW = Sparse Vectors)

Elke unieke term krijgt een vectorpositie. Teksten worden omgezet naar vectoren met getallen (0 of 1, of frequentie).
 Voordeel

7
New cards

You know the limitations of basic embeddings (Problem Static Embeddings)

BoW en Word2Vec zijn context-onafhankelijk

8
New cards

You can explain how dense embeddings work (Dense Word Embeddings)

Technieken zoals Word2Vec of GloVe maken compacte, context-geïnformeerde vectoren die betekenisvolle afstandsrelaties bevatten (vb

9
New cards

You understand what Named Entity Recognition (NER) is (NER)

NER herkent en classificeert belangrijke stukken tekst zoals namen, locaties, organisaties enz. Wordt gebruikt voor info-extractie uit ongestructureerde data.

10
New cards

You know how POS-tagging helps enrich NLP tasks (PoS Tagging)

Part-of-Speech tagging voegt grammaticale info toe aan elk woord (bv. werkwoord, zelfstandig naamwoord), wat nuttig is voor syntax en betekenis.

11
New cards

You understand how modern NLP uses large language models (LLMs)

Grote taalmodellen (zoals GPT) gebruiken context om woorden beter te begrijpen. Ze werken met dynamische embeddings i.p.v. vaste vectoren.