AP TEMA 4

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/34

There's no tags or description

Looks like no tags are added yet.

Last updated 8:31 AM on 5/18/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

35 Terms

New cards

PROCESAMIENTO POR LOTES - DATOS

Datos limitados, persistentes (guardados en HDFS o Cloud) y de gran tamaño.

New cards

PROCESAMIENTO POR LOTES - MODELO DE ACCESO

Acceso a todos los datos desde el principio, trabajo dividido estaticamente.

New cards

PROCESAMIENTO POR LOTES - RESULTADOS

Completos y válidos solo al final del trabajo.

New cards

PROCESAMIENTO POR LOTES - ANÁLISIS

Muy complejos.

New cards

PROCESAMIENTO POR LOTES - OPTIMIZACIÓN

Maximizar la productividad, maximizar cantidad de datos procesados.

New cards

PROCESAMIENTO POR LOTES - USOS

Calculos sobre conjuntos completos.

New cards

PROCESAMIENTO DE FLUJOS - DATOS

Datos ilimitados, no persistentes y llegan en registros pequeños.

New cards

PROCESAMIENTO DE FLUJOS - MODELO DE ACCESO

Un elemento a la vez o ventana pequeña.

New cards

PROCESAMIENTO DE FLUJOS - RESULTADOS

Actualizaciones inmediatas y continuas.

New cards

PROCESAMIENTO DE FLUJOS - ANÁLISIS

Simples y rápidos.

New cards

PROCESAMIENTO DE FLUJOS - OPTIMIZACIÓN

Minimizar latencia, menor tiempo entre llegada del dato y salida del resultado.

New cards

PROCESAMIENTO DE FLUJOS - USOS

Calculos independientes con requisitos de tiempo real.

New cards

SPARK STREAMING - MICRO-BATCH

Spark Streaming divide el flujo continuo en intervalos pequeños de tiempo, esos datos se agrupan en un RDD, se procesa y devuelve resultados.

New cards

SPARK STREAMING - DSTREAM

Flujo continuo de datos, que internamente es una secuencia continua de RDDs.

New cards

SPARK STREAMING - DSTREAM - LINAJE EN STREAMING

Al aplicar una transformación, se aplica a cada RDD individual del flujo.

New cards

SPARK STREAMING - DSTREAM - FUENTES DE ENTRADA

Se crean desde fuentes básicas (sockets) o avanzadas (Kafka).

New cards

SPARK STREAMING - OPERACIONES DE ESTADO - UPDATE_STATE_BY_KEY

Mantiene un estado global acumulativo: en conteo de palabras: suma las actuales a las que ya llevabas contadas.

New cards

SPARK STREAMING - OPERACIONES DE ESTADO - OPERACIONES DE VENTANA

Permiten aplicar transformaciones sobre una ventana deslizante de datos: # mas popular en los últimos 60s, cada 10s

New cards

SPARK STREAMING - TOLERANCIA A FALLOS

No se guardan los datos indefinidamente, se usan Checkpoints y WAL, guardando los datos de forma síncrona en un almacenamiento persistente.

New cards

SPARK STRUCTURED STREAMING

Construido sobre Spark SQL y DataFrames.

New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA

Tratar flujo de datos como una tabla estática.

New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA - ENTRADA

Cada nuevo evento se añade como nueva fila.

New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA - CONSULTA CONTINUA

Se escribe una consulta SQL y Catalyst la convierte en plan de ejecución eficiente.

New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA - RESULTADOS

Se actualizan continuamente

New cards

SPARK STRUCTURED STREAMING - MODOS DE SALIDA - APPEND

Se envían las filas nuevas, para datos que no cambian.

New cards

SPARK STRUCTURED STREAMING - MODOS DE SALIDA - UPDATE

Se envían las filas actualizadas o cambiadas.

New cards

SPARK STRUCTURED STREAMING - MODOS DE SALIDA - COMPLETE

Se envía todo cada vez.

New cards

SPARK STRUCTURED STREAMING - PROCESSING TIME

Procesar el dato según la hora del reloj del servidor.

New cards

SPARK STRUCTURED STREAMING - EVENT TIME

Procesar el dato según la hora en la que ocurrió el evento.

New cards

SPARK STRUCTURED STREAMING - WATERMARKING

Umbral para evitar que la memoria espere infinitamente datos retrasados.

New cards

MIDDLEWARE PUB/SUB - PRODUCTORES

Aplicaciones web o sensores que publican mensajes de forma masiva y asíncrona hacia un Topic

New cards

MIDDLEWARE PUB/SUB - TOPICS Y PARTICIONES

Canales lógicos que retienen mensajes en disco temporalmente.

New cards

MIDDLEWARE PUB/SUB - CONSUMIDORES

Se suscriben a topics y leen datos a su ritmo. Si se cae Spark, se reanuda donde lo dejó.

New cards

OPCIONES DE MERCADO - KAFKA

Open source, basada en clusteres de servidores físicos que particionan datos y gestionana un puntero para saber que ha leído cada uno.

New cards

OPCIONES DE MERCADO - GOOGLE CLOUD PUB/SUB

Serverless, escalabilidad automática.