La disciplina que se ocupa del desarrollo de procedimientos y métodos informativos en el tratamiento automático del lenguaje que tiene un carácter interdisciplinar
New cards
2
¿Qué son los dos elementos del campo de actuación de la lingüística computacional?
El diseño de algoritmos y estructuras de datos que se pueden usar para la representación y el procesamiento de datos lingüísticos y el desarrollo de programas informáticos basados en la utilización de conocimiento lingüístico
New cards
3
¿Qué son los dos componentes/subcampos de la lingüística computacional?
Define la lingüística computacional como un componente de sí mismo.
Nombre reservado a veces para la vertiente más teórica, de ciencia básica, especialmente lo centrado en usar la informática para tratar asuntos tradicionalmente objeto de estudio de la lingüística, como cuestiones morfológicas, sintácticas y semánticas
New cards
5
Define la ingeniería/tecnología lingüística como un componente de la lingüística computacional.
Nombre usado para la vertiente más aplicada y tecnológica
New cards
6
¿Qué significa que el ordenador “utilice” el lenguaje humano?
Obviamente, los ordenadores carecen de inteligencia inherente y necesitan programas específicos para ello. Por eso, esencial trabajo conjunto de la ciencia computacional y el conocimiento de los lingüistas
New cards
7
¿Por qué la conexión entre la lingüística y la ciencia computacional dista de ser accidental?
Existe una clara complementariedad porque el lenguaje implica complejos sistemas de símbolos y los ordenadores son procesadores de símbolos muy veloces y hay una conexión natural entre la complejidad de los patrones lingüísticos y la complejidad de los modelos matemáticos de computación
New cards
8
¿Qué es el análisis en la lingüística computacional?
El concepto de que el ordenador es capaz de entender el lenguaje que tradicionalmente ha concentrado la mayor parte de la investigación y trabaja en módulos, conforme a niveles de análisis lingüístico
New cards
9
¿Qué son los diferentes niveles de análisis lingüístico?
Fónico, morfológico, sintáctico, semántico y pragmático
New cards
10
¿Qué son los objetivos del análisis fónico?
Identificar elementos del habla (fonemas) y segmentar unidades significativas (palabras) para tratamiento en módulos superiores
New cards
11
¿Qué son los factores en la complejidad del análisis fónico?
Diferencias de pronunciación de fonemas según su contexto dentro de la palabra, diferencias de pronunciación según el ritmo de elocución del hablante, diferencias de dialectos y acentos regionales, defectos de pronunciación permanentes o transitorios y interferencias por ruidos
New cards
12
Explica el modelo tradicional del análisis fónico.
Basado en el reconocimiento de palabras, previo "entrenamiento" que es el registro de palabras grabado por usuario y funciona con un vocabulario limitado hasta unas 100 palabras
New cards
13
Explica el sistema más ambicioso del análisis fónico.
Es capaz de reconocer hablantes diversos y tiene un vocabulario ilimitado porque es basado en el reconocimiento de fonemas
New cards
14
¿Qué son los pasos del proceso en el sistema más ambicioso del análisis fónico?
Captación y digitalización de voz, procesamiento de señal y extracción de rasgos acústicos, identificación de fonemas y segmentación de palabras con diccionario fonético y técnicas probabilísticas
New cards
15
¿Qué son los objetivos del análisis morfológico?
Reducir formas diversas a lema común (diferentes flexiones verbales con diferentes categorías gramaticales) y adjuntar a lema la información gramatical de los afijos
New cards
16
Explica el problema de partida en el análisis morfológico.
Es necesario segmentar palabras previas y los elementos problemáticos son las contracciones (de el --> del), los clíticos (dárselos) y las locuciones
New cards
17
Explica el problema de las locuciones en la partida en el análisis morfológico.
Varias palabras, pero una sola unidad semántica que son compuestos sintagmáticos y además la posibilidad de que una misma secuencia a veces puede ser locución o significado composicional
New cards
18
Explica la metodología del análisis morfológico.
El módulo morfológico produce una representación manipulable de cada elemento de entrada: lema + información gramatical
New cards
19
¿Qué requiere el proceso en el análisis morfológico?
Un diccionario de raíces, un diccionario de afijos y un catálogo de restricciones combinatorias
New cards
20
Explica el papel de la ambigüedad categorial en el análisis morfológico.
El principal problema es las formas coincidentes de palabras distintas, como la palabra 'sobre' que es una preposición, un nombre y un verbo, esta ambigüedad solo existe aisladamente, y es rara en contexto
New cards
21
¿Qué es la solución a la ambigüedad categorial en el análisis morfológico?
Programas etiquetadores que han alcanzado alta fiabilidad
New cards
22
¿Qué son los diferentes tipos de programas etiquetadores en el análisis morfológico?
Los que están basados en reglas - cómo se combina cada palabra y con otras palabras y para qué categoría de palabra; programas probabilísticos - probabilidad de ser cada categoría de palabra; programas híbridos
New cards
23
Da una descripción esencial del análisis sintáctico.
Parte de los resultados del análisis morfológico que produce una representación de la estructura de la frase, reflejando las relaciones sintácticas y su producto es la base para los módulos de tratamiento más abstracto como tratamiento semántica y traducción automática
New cards
24
Explica la importancia del análisis sintáctico.
Es el ámbito de procesamiento automático en el que más se ha trabajado y el factor significativo es el papel central de la sintaxis tras la irrupción lingüística chomskyana de gramática generativa
New cards
25
¿Qué son las formas de representación en el análisis sintáctico?
La principal es los árboles de la estructura de los constituyentes y también el modelo de estructura de dependencias de Tesnière (especialmente para la traducción automática)
New cards
26
¿Qué son los tres tipos de información que dan los árboles de la estructura de los constituyentes en el análisis sintáctico?
La jerarquía de dominio (qué elementos son nucleares, etc.), el orden de los elementos y la categoría de los constituyentes
New cards
27
Describe los métodos del análisis sintáctico.
Parsing - una herramienta necesaria para las reglas que describan la sintaxis de la lengua y el sistema habitual usa las reglas de reescritura chomskyanas o los programas que producen las estructuras sintácticas (parsers)
New cards
28
Explica el principal problema de la ambigüedad estructural en el análisis sintáctico.
Básicamente, es la posibilidad de que un constituyente pueda integrarse en dos o más constituyentes de nivel superior, a veces viene dada directamente por ambigüedad categorial y en frases medias-largas hay multiplicación exponencial de ambigüedades
New cards
29
¿Por qué es el análisis semántico un paso más allá?
Algunas aplicaciones se quedan en análisis sintáctico y otras siguen a análisis más profundo y abstracto y da una representación que refleje relaciones semánticas básicas de la frase/una representación no ambigua
New cards
30
¿Qué son las características necesarias en la representación semántica generada en el análisis semántico?
Tiene que ser suficientemente completa para servir a aplicaciones que emulan cierto tipo de comprensión y suficientemente precisa para facilitar tratamiento computacional eficiente (habitualmente, representaciones de lógica formal)
New cards
31
¿Qué son los elementos que integran la representación en el análisis semántico?
La unidad básica que es una proposición formada por diversos elementos, principalmente el predicado y los argumentos y también por otros elementos como operadores lógicos y cuantificadores; también la carencia achacada a representación lógica - la omisión de elementos como tiempo, aspecto, modalidad, etc. es factible incorporarlos ampliando la notación
New cards
32
Explica el problema de la ambigüedad en el análisis semántico.
Se manifiesta en aspectos diversos, por ejemplo, ambigüedad de sentido (polisemia), ambigüedad de tipo de referencia y ambigüedad en referencia de los anafóricos
New cards
33
Define el análisis pragmático.
Análisis de significado adicional que adquieren las expresiones en contexto
New cards
34
¿Qué son las aplicaciones que necesitan el análisis pragmático?
Las que interaccionan con usuario en lenguaje natural y en general, las orientadas a comprensión de textos
New cards
35
¿Qué son las principales áreas de investigación en el análisis pragmático?
La identificación del referente en pronombres y anafóricos que tiene diversas soluciones propuestas (por ejemplo, crear y mantener un registro del contexto local del discurso en el que poder buscar cuando sea necesario) y la elaboración de un modelo computacional del diálogo que es importante en aplicaciones que incluyen diálogo en lenguaje natural
New cards
36
¿Qué son los elementos de la elaboración de un modelo computacional del diálogo en el análisis pragmático?
La consideración de partida - la comunicación humana busca obtener resultados prácticos; la máquina ha de reconocer objetivos y actuar consecuentemente - por ejemplo, el deseo de saber la hora del próximo vuelo a un lugar
New cards
37
¿Qué es el síntesis?
El concepto de que el ordenador es capaz de producir el lenguaje, en un proceso inverso de análisis que trabaja en dos niveles para generar el lenguaje
New cards
38
¿Qué son los dos niveles de síntesis?
Generación sintáctica y generación morfológica
New cards
39
¿Qué es la generación sintáctica?
La producción de estructura sintáctica desde una representación semántica que incluye aspectos como la selección de categorías gramaticales y el orden de palabras
New cards
40
¿Qué es la generación morfológica?
La producción de forma superficial de las palabras a partir de: forma básica + información gramatical
New cards
41
¿Qué son los dos ámbitos relevantes dentro del trabajo de síntesis?
Generación de texto y generación fónica/de voz
New cards
42
Caracteriza la generación de texto.
Es el proceso inverso al análisis - a partir de representación semántica, módulo de generación produce expresión en lengua natural
New cards
43
¿Qué son algunas de las aplicaciones que necesita la generación de texto?
Interfaces en lenguaje natural a bases de datos, sistemas expertos de elaboración de diagnósticos y sistemas que generan informes a partir de datos no elaborados
New cards
44
¿Qué son las dos etapas en generación de texto?
Planificación del texto, de qué se va a decir y realización del texto, de cómo se va a decir
New cards
45
Explica la etapa de la planificación de texto en la generación de texto.
La selección de los datos relevantes para objetivos usuario, la organización del contenido en estructura discursiva coherente y planificación oracional
New cards
46
¿Qué es la base de la organización del contenido en estructura discursiva?
Esquemas discursivos abstractos - superestructura (p.e. una receta de cocina tiene un título, una lista de ingredientes y una elaboración) y las estructuras jerárquicas de conceptos (causa, condición, etc.)
New cards
47
Explica la planificación oracional.
La organización de oraciones, la selección del léxico y la adición de marcadores discursivos, etc.
New cards
48
Explica la realización del texto.
El diseño de estructura gramatical (selección de funciones gramaticales, etc), la selección entre formas posibles de expresión según tema y objetivos, la selección de palabras funcionales, la determinación del orden de los elementos y la determinación de flexiones y otros detalles
New cards
49
Caracteriza la generación fónica.
La producción de voz humana (síntesis de voz) a partir de un texto - puede ser la salida de un módulo de generación textual o no
New cards
50
¿Qué son las numerosas aplicaciones de la generación fónica?
La lectura para ciegos y deficientes visuales, las máquinas de ayuda para comunicación a deficientes sensomotrices y las interfaces telefónicos a bases de datos
New cards
51
¿Qué son las etapas de los sistemas de síntesis en generación fónica?
La normalización del texto (conversión a texto de abreviaturas, siglas, etc.), la transcripción fonémica de las palabras del texto, tratamiento de prosodia y entonación (con ayuda de signos de puntuación) y la producción de sonido en forma de fichero de audio
New cards
52
¿Qué son las técnicas de producción de voz?
Síntesis a partir de un archivo de segmentos de voz humana real, síntesis artificial a partir de propiedades acústicas de la voz humana
New cards
53
¿Qué es una desventaja de la generación fónica?
En cualquier caso, aún no se logra una línea melódica que suene natural
New cards
54
¿A qué se refiere el término de ingeniería lingüística?
La vertiente más aplicada y tecnológica de la lingüística computacional, se trata de un campo en evidente auge, que crece exponencialmente día tras día incorporando nuevos ámbitos
New cards
55
¿Qué son las aplicaciones de la ingeniería lingüística?
Minería de datos, tratamiento del habla y interfaces en lenguaje natural, traducción automática
New cards
56
¿Qué es el campo de minería de datos?
El campo de aplicaciones concentradas en extracción de información a partir de grandes masas de texto
New cards
57
¿Qué son las principales aplicaciones en el campo de minería de datos?
Búsqueda de información en bases documentales, extracción de información y resumen de textos
New cards
58
¿De qué se trata la aplicación de búsqueda de información en bases documentales?
Se trata de un tipo de aplicación que se ha tornado extremadamente útil, dada la ingente y creciente cantidad de información disponible online tanto en la forma de lenguaje natural como almacenada en bases de datos que usan potentes motores de búsqueda para realizar tareas prácticamente imposibles para el humano
New cards
59
Explica el proceso de la búsqueda de información en bases documentales.
Cuando pedimos información, se extraen de una base documental los textos que corresponden con una consulta del usuario y se ordenan según algún criterio
New cards
60
¿Qué es la clave para eficiencia en la búsqueda de información en bases documentales en minería de datos?
La búsqueda sobre índice, previamente elaborado, de palabras y conceptos clave de los documentos
New cards
61
Da algunos ejemplos de la búsqueda de información en bases documentales.
Google, o en cuanto a la búsqueda de plagio - TurnitIn
New cards
62
Explica la extracción de información como una aplicación de la minería de datos.
Las aplicaciones identifican información relevante de un documento normalmente para incluirla en base de datos
New cards
63
¿Qué son los tipos de información habituales en la extracción de información en minería de datos?
Nombres de personas o entidades, fechas, cantidades, precios, etc.
New cards
64
¿En qué situación podría ser muy útil la extracción de información en minería de datos?
En trabajos de investigación, rastreando miles de documentos en el tiempo que una persona podría revisar uno o dos.
New cards
65
Explica el resumen de textos como una aplicación de minería de datos.
Condensa las partes más importantes de un texto en un resumen coherente.
New cards
66
¿Qué son los dos grandes tipos de resumen de textos según metodología?
Los que aprovechan conocimiento sobre tema y estructura, los que se basan en métodos estadísticos
New cards
67
¿Qué sistemas involucra el tratamiento del habla?
Síntesis y análisis
New cards
68
Describe las aplicaciones dentro del tratamiento del habla.
Algunas asentadas - lectura de documentos, sistema de dictado, etc y otros evolucionando - gestión de máquinas de voz, acceso a bases de datos, etc.
New cards
69
Explica las interfaces en lenguaje natural.
Las aplicaciones para interacción entre usuario y máquina mediante lenguaje natural para uso en centros de investigación (p.e. MIT) y algo comercializado, es el campo en el que se está avanzando muy deprisa p.e. SIRI
New cards
70
Explica los destinatarios en las interfaces en lenguaje natural.
Usuarios esporádicos de aplicaciones controladas por sistemas complejos
New cards
71
Explica los comienzos de la traducción automática.
Es una aspiración histórica, con gran peso desde el surgimiento de la informática, el motor de arranque y desarrollo de lingüística computacional tras la 2a Guerra Mundial que recibió gran inversión desde los años 1940s
New cards
72
¿Qué era el momento clave en los comienzos de la traducción automática?
1954 - con el experimento Georgetown, había euforia sobre las posibilidades futuras, sin embargo, posteriormente la euforia de vino abajo poco a poco - abandono de aspiración de traducción óptima completamente automática
New cards
73
Explica qué hizo el experimento Georgetown.
Era un proyecto conjunto Georgetown University-IBM para traductor automático con un sistema de traducción de ruso a inglés que trabajaba en un ámbito muy limitado y se consideraba un éxito rotundo
New cards
74
Da algunos detalles de cómo el experimento Georgetown trabajaba en un ámbito muy limitado.
Trabajaba sobre 49 oraciones del ruso que utilizaba un vocabulario de 250 palabras y aplicaba 6 reglas gramaticales
New cards
75
¿Por qué se consideraba el experimento Georgetown un éxito rotundo?
Desató una ola de inversión y propició euforia sobre posibilidades futuras y los autores afirmaban que la traducción automática sería problema resuelto en un plazo de 3 a 5 años
New cards
76
La traducción automática es una área que plantea desafíos a diferentes campos de lingüística computacional, pero ¿qué abarca?
La comprensión lingüística en una lengua, la producción lingüística en otra lengua, "puente" de equivalencia entre ambas
New cards
77
¿Qué son los usos limitados de la traducción automática (debido a las deficiencias en producto final)?
Traducción de textos simples (boletines meteorológicos), elaboración de borradores para traductores humanos, traducción de páginas web; en general enfocada a textos en los que prima el contenido, no la forma
New cards
78
Mientras no había grandes logros en la traducción automática, ¿por qué es una herramienta útil para un traductor humano?
Los sistemas de gestión terminológica, los sistemas de extracción automática de terminología a partir de textos, las memorias de traducción (gestión de colecciones de traducciones realizadas)
New cards
79
¿Qué son los tres enfoques en la traducción automática?
El enfoque directo, el enfoque de transferencia y el enfoque interlingual
New cards
80
Explica el enfoque directo en la traducción automática.
Es el enfoque más básico que busca palabras de texto fuente en diccionario bilingüe, escoge las traducciones apropiadas de equivalencias semánticas y luego reorganiza las palabras traducidas conforme a reglas de lengua meta
New cards
81
Evalúa el enfoque directo en la traducción automática.
Fue el enfoque más utilizado en los primeros intentos (años 1950s y 1960s) que fue diseñado para pares de lenguas específicos pero funciona solo con lenguas muy similares en términos de la estructura
New cards
82
Explica el enfoque de transferencia en la traducción automática.
Crea una fase entre el texto fuente y el texto meta de representación sintáctico-semántica intermedia ("de transferencia") en la lengua fuente, la transfiere a representación sintáctico-semántica en la lengua meta y luego genera el texto final en la lengua meta
New cards
83
Evalúa el enfoque de transferencia en la traducción automática.
Es el sistema más utilizado que funciona sobre tres componentes (análisis en lengua fuente, módulo de transferencia, síntesis en lengua meta) y es más flexible y potente que el enfoque directo
New cards
84
Explica el enfoque interlingual en la traducción automática.
Asume la posibilidad de convertir el texto fuente en representaciones sintáctico-semánticas comunes para más de una lengua, busca descomponer el significado del texto en una representación conceptual "language-neutral" y a partir de ahí, genera directamente el texto en la lengua meta
New cards
85
Evalúa el enfoque interlingual en la traducción automática.
Busca economía (traduce con un solo sistema para varias lenguas), evita módulos de transferencia para cada par de lenguas pero el problema es que es muy difícil de implementar
New cards
86
¿Que ocurre en el modelo tradicional de la lingüística de corpus?
El lingüista proporcionaba al ordenador el conocimiento lingüístico y el informático diseñaba el programa que pudiera usar tal información
New cards
87
¿Que ocurre recientemente en el modelo de la lingüística de corpus?
Se busca derivar el conocimiento lingüístico directamente del discurso a través de la aplicación de modelos estadísticos sobre corpus de textos
New cards
88
Explica un ejemplo del modelo más moderno de la lingüística de corpus.
Derivar un modelo sobre cómo traducir del inglés al español, se proporcionan al sistema grandes cantidades de textos ingleses y sus traducciones al español mientras el sistema identifica los distintos modos de traducir cada palabra y cada secuencia
New cards
89
¿Qué es la lingüística de corpus?
El campo de reciente desarrollo dentro de la lingüística que investiga sobre la base de ejemplos de lenguaje en uso almacenados electrónicamente
New cards
90
¿Qué es un corpus?
Una colección sistemáticamente organizada de ejemplos
New cards
91
¿Qué son las dos tipos de corpus y qué pueden incluir?
Solo texto es decir, el texto "al natural" o texto anotado incluyendo símbolos especiales y pueden incluir documentos escritos (periódicos, etc.), transcripciones de lenguaje oral (conversaciones, etc.) y otros (vídeo, lengua de signos, etc.)
New cards
92
Explica el énfasis en la dimensión social del lenguaje en la lingüística de corpus.
Los textos del corpus son textos reales usados en la interacción y ligados a situaciones comunicativas específicas (a diferencia de los ejemplos "prefabricados")
New cards
93
¿Qué contribuye a investigar la lingüística de corpus?
Lo que los hablantes hacen con el lenguaje y cómo los hablantes perciben el mundo
New cards
94
¿Qué permite el procesamiento informatizado en el almacenamiento electrónico?
La posibilidad de hacer búsquedas, contar palabras, etc y el rasgo fundamental es el acceso a investigación cuantitativa
New cards
95
Explica el concepto del texto anotado.
Es el proceso de añadir códigos que luego sean "leídos" por ciertas aplicaciones informativas o bien códigos sobre estructuras o características lingüísticas conforme a cierta teoría lingüística
New cards
96
¿Que es un ejemplo sencillo del texto anotado y qué usos tiene?
La anotación de categorías gramaticales que es muy útil para deshacer ambigüedades y que tiene muchas aplicaciones p.e. herramientas de reconocimiento del habla
New cards
97
¿Qué es la investigación cuantitativa?
Incluye como aspecto básico la observación de repeticiones, de patrones repetidos ofrecen información sobre la distribución de los fenómenos lingüísticos y diferentes significados de las palabras
New cards
98
¿Qué son las concordancias?
El procedimiento específico para mostrar resultados de búsqueda en corpus que se muestra una determinada palabra en todas sus apariciones con una determinada cantidad de texto a izquierda y derecha, ordenado las apariciones conforme a cierto criterio
New cards
99
¿Qué es el formato KWIC?
"Key Word In Context", una denominación que alude a los resultados obtenidos de las concordancias que permite aislar los contextos de una palabra y pone de relieve las similitudes existentes en grandes masas de texto y permite realizar trabajos difícilmente ejecutables de otro modo
New cards
100
Explica la relevancia del tamaño y tipo de corpus.
A mayor tamaño del corpus, mayor visibilidad de los patrones pero también interesa la relación entre palabras y tipos de textos de origen