AP TEMA 4

0.0(0)
Studied by 0 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/34

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 8:31 AM on 5/18/26
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

35 Terms

1
New cards

PROCESAMIENTO POR LOTES - DATOS

Datos limitados, persistentes (guardados en HDFS o Cloud) y de gran tamaño.

2
New cards

PROCESAMIENTO POR LOTES - MODELO DE ACCESO

Acceso a todos los datos desde el principio, trabajo dividido estaticamente.

3
New cards

PROCESAMIENTO POR LOTES - RESULTADOS

Completos y válidos solo al final del trabajo.

4
New cards

PROCESAMIENTO POR LOTES - ANÁLISIS

Muy complejos.

5
New cards

PROCESAMIENTO POR LOTES - OPTIMIZACIÓN

Maximizar la productividad, maximizar cantidad de datos procesados.

6
New cards

PROCESAMIENTO POR LOTES - USOS

Calculos sobre conjuntos completos.

7
New cards

PROCESAMIENTO DE FLUJOS - DATOS

Datos ilimitados, no persistentes y llegan en registros pequeños.

8
New cards

PROCESAMIENTO DE FLUJOS - MODELO DE ACCESO

Un elemento a la vez o ventana pequeña.

9
New cards

PROCESAMIENTO DE FLUJOS - RESULTADOS

Actualizaciones inmediatas y continuas.

10
New cards

PROCESAMIENTO DE FLUJOS - ANÁLISIS

Simples y rápidos.

11
New cards

PROCESAMIENTO DE FLUJOS - OPTIMIZACIÓN

Minimizar latencia, menor tiempo entre llegada del dato y salida del resultado.

12
New cards

PROCESAMIENTO DE FLUJOS - USOS

Calculos independientes con requisitos de tiempo real.

13
New cards

SPARK STREAMING - MICRO-BATCH

Spark Streaming divide el flujo continuo en intervalos pequeños de tiempo, esos datos se agrupan en un RDD, se procesa y devuelve resultados.

14
New cards

SPARK STREAMING - DSTREAM

Flujo continuo de datos, que internamente es una secuencia continua de RDDs.

15
New cards

SPARK STREAMING - DSTREAM - LINAJE EN STREAMING

Al aplicar una transformación, se aplica a cada RDD individual del flujo.

16
New cards

SPARK STREAMING - DSTREAM - FUENTES DE ENTRADA

Se crean desde fuentes básicas (sockets) o avanzadas (Kafka).

17
New cards

SPARK STREAMING - OPERACIONES DE ESTADO - UPDATE_STATE_BY_KEY

Mantiene un estado global acumulativo: en conteo de palabras: suma las actuales a las que ya llevabas contadas.

18
New cards

SPARK STREAMING - OPERACIONES DE ESTADO - OPERACIONES DE VENTANA

Permiten aplicar transformaciones sobre una ventana deslizante de datos: # mas popular en los últimos 60s, cada 10s

19
New cards

SPARK STREAMING - TOLERANCIA A FALLOS

No se guardan los datos indefinidamente, se usan Checkpoints y WAL, guardando los datos de forma síncrona en un almacenamiento persistente.

20
New cards

SPARK STRUCTURED STREAMING

Construido sobre Spark SQL y DataFrames.

21
New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA

Tratar flujo de datos como una tabla estática.

22
New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA - ENTRADA

Cada nuevo evento se añade como nueva fila.

23
New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA - CONSULTA CONTINUA

Se escribe una consulta SQL y Catalyst la convierte en plan de ejecución eficiente.

24
New cards

SPARK STRUCTURED STREAMING - TABLA ILIMITADA - RESULTADOS

Se actualizan continuamente

25
New cards

SPARK STRUCTURED STREAMING - MODOS DE SALIDA - APPEND

Se envían las filas nuevas, para datos que no cambian.

26
New cards

SPARK STRUCTURED STREAMING - MODOS DE SALIDA - UPDATE

Se envían las filas actualizadas o cambiadas.

27
New cards

SPARK STRUCTURED STREAMING - MODOS DE SALIDA - COMPLETE

Se envía todo cada vez.

28
New cards

SPARK STRUCTURED STREAMING - PROCESSING TIME

Procesar el dato según la hora del reloj del servidor.

29
New cards

SPARK STRUCTURED STREAMING - EVENT TIME

Procesar el dato según la hora en la que ocurrió el evento.

30
New cards

SPARK STRUCTURED STREAMING - WATERMARKING

Umbral para evitar que la memoria espere infinitamente datos retrasados.

31
New cards

MIDDLEWARE PUB/SUB - PRODUCTORES

Aplicaciones web o sensores que publican mensajes de forma masiva y asíncrona hacia un Topic

32
New cards

MIDDLEWARE PUB/SUB - TOPICS Y PARTICIONES

Canales lógicos que retienen mensajes en disco temporalmente.

33
New cards

MIDDLEWARE PUB/SUB - CONSUMIDORES

Se suscriben a topics y leen datos a su ritmo. Si se cae Spark, se reanuda donde lo dejó.

34
New cards

OPCIONES DE MERCADO - KAFKA

Open source, basada en clusteres de servidores físicos que particionan datos y gestionana un puntero para saber que ha leído cada uno.

35
New cards

OPCIONES DE MERCADO - GOOGLE CLOUD PUB/SUB

Serverless, escalabilidad automática.