1/12
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Cos’è la Machine Readable Form (MRF)?
Rappresentazione del testo su supporto digitale in un formato leggibile da un computer
Cos’è la codifica di basso livello (codifica di livello 0)?
Riguarda la rappresentazione dei caratteri in formato digitale (traduzione codice binario)
Cos’è la codifica di alto livello?
Codifica informazioni relative a dimensioni linguistiche e strutturali (organizzazione del testo in strutture macrotestuali, articolazione del testo in strutture linguistiche)
Che cos’è un repertorio di caratteri?
Insieme di simboli, in qualche modo astratto, dipendente o meno dalla lingua che rappresenta
Che cos’è un codice?
Criterio convenzionale tramite cui associamo un punto di codice univoco ad un carattere dell’alfabeto da rappresentare
Che cos’è l’encoding?
Metodo utilizzato per trasformare i punti di codice (numeri) in una determinata sequenza di byte (0 e 1)
Che cos’è la tokenizzazione?
Operazione che consente di segmentare le sequenze dei caratteri in unità minime di analisi
Che cos’è l’optical character recognition (OCR)?
Conversione meccanica o elettronica di un’immagine con caratteri scritti a mano o stampati in un testo codificato meccanicamente
Su cosa si basano i tokenizzatori?
Minigrammatiche, algoritmi probabilistici e repertori/glossari
A cosa servono le minigrammatiche?
Specificano le forme che possono assumere i token (es. varianti di scrittura delle date)
A cosa servono gli algoritmi probabilistici?
Disambiguano l’etichetta corretta in base all’evidenza appresa da un corpus di training “gold”
A cosa servono i repertori/glossari?
Riportano le liste di abbreviazioni, acronimi, nomi propri, ecc. per una determinata lingua
Cos’è il Maximum Matching?
Algoritmo di base standard per la segmentazione delle parole in cinese