1/10
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced |
---|
No study sessions yet.
You understand what NLP is and why it’s challenging (Definition NLP)
NLP staat voor Natural Language Processing
You know why text must be transformed (Text = Unstructured)
Tekst is ongestructureerde data en moet omgezet worden naar numerieke vectoren voordat je machine learning of deep learning kunt toepassen.
You can describe the NLP pipeline steps (NLP Pipeline)
Typische stappen zijn
1. Preprocessing (cleaning, normaliseren, stopwoorden verwijderen)
2. Tokenization (tekst splitsen in woorden of zinnen)
3. Vectorisatie (tekst omzetten in getallen)
4. Modelling (bv. classificatie, voorspelling)
You understand tokenization and why it’s the first step (Tokenization)
Tekst wordt opgesplitst in kleine eenheden zoals woorden of subwoorden (tokens), die afzonderlijk kunnen worden geanalyseerd of geteld.
You know how to clean and normalize text (Preprocessing)
Mogelijke bewerkingen
– Hoofdletters verwijderen
– Accenten normaliseren
– HTML tags en leestekens verwijderen
– Woorden terugbrengen tot basisvorm (stemming / lemmatization)
You understand Bag-of-Words and one-hot encoding (BoW = Sparse Vectors)
Elke unieke term krijgt een vectorpositie. Teksten worden omgezet naar vectoren met getallen (0 of 1, of frequentie).
Voordeel
You know the limitations of basic embeddings (Problem Static Embeddings)
BoW en Word2Vec zijn context-onafhankelijk
You can explain how dense embeddings work (Dense Word Embeddings)
Technieken zoals Word2Vec of GloVe maken compacte, context-geïnformeerde vectoren die betekenisvolle afstandsrelaties bevatten (vb
You understand what Named Entity Recognition (NER) is (NER)
NER herkent en classificeert belangrijke stukken tekst zoals namen, locaties, organisaties enz. Wordt gebruikt voor info-extractie uit ongestructureerde data.
You know how POS-tagging helps enrich NLP tasks (PoS Tagging)
Part-of-Speech tagging voegt grammaticale info toe aan elk woord (bv. werkwoord, zelfstandig naamwoord), wat nuttig is voor syntax en betekenis.
You understand how modern NLP uses large language models (LLMs)
Grote taalmodellen (zoals GPT) gebruiken context om woorden beter te begrijpen. Ze werken met dynamische embeddings i.p.v. vaste vectoren.