Lezione 4 - Codifica

0.0(0)
Studied by 0 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/12

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 7:49 AM on 6/26/26
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

13 Terms

1
New cards

Cos’è la Machine Readable Form (MRF)?

Rappresentazione del testo su supporto digitale in un formato leggibile da un computer

2
New cards

Cos’è la codifica di basso livello (codifica di livello 0)?

Riguarda la rappresentazione dei caratteri in formato digitale (traduzione codice binario)

3
New cards

Cos’è la codifica di alto livello?

Codifica informazioni relative a dimensioni linguistiche e strutturali (organizzazione del testo in strutture macrotestuali, articolazione del testo in strutture linguistiche)

4
New cards

Che cos’è un repertorio di caratteri?

Insieme di simboli, in qualche modo astratto, dipendente o meno dalla lingua che rappresenta

5
New cards

Che cos’è un codice?

Criterio convenzionale tramite cui associamo un punto di codice univoco ad un carattere dell’alfabeto da rappresentare

6
New cards

Che cos’è l’encoding?

Metodo utilizzato per trasformare i punti di codice (numeri) in una determinata sequenza di byte (0 e 1)

7
New cards

Che cos’è la tokenizzazione?

Operazione che consente di segmentare le sequenze dei caratteri in unità minime di analisi

8
New cards

Che cos’è l’optical character recognition (OCR)?

Conversione meccanica o elettronica di un’immagine con caratteri scritti a mano o stampati in un testo codificato meccanicamente

9
New cards

Su cosa si basano i tokenizzatori?

Minigrammatiche, algoritmi probabilistici e repertori/glossari

10
New cards

A cosa servono le minigrammatiche?

Specificano le forme che possono assumere i token (es. varianti di scrittura delle date)

11
New cards

A cosa servono gli algoritmi probabilistici?

Disambiguano l’etichetta corretta in base all’evidenza appresa da un corpus di training “gold”

12
New cards

A cosa servono i repertori/glossari?

Riportano le liste di abbreviazioni, acronimi, nomi propri, ecc. per una determinata lingua

13
New cards

Cos’è il Maximum Matching?

Algoritmo di base standard per la segmentazione delle parole in cinese