1/34
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
PROCESAMIENTO POR LOTES - DATOS
Datos limitados, persistentes (guardados en HDFS o Cloud) y de gran tamaño.
PROCESAMIENTO POR LOTES - MODELO DE ACCESO
Acceso a todos los datos desde el principio, trabajo dividido estaticamente.
PROCESAMIENTO POR LOTES - RESULTADOS
Completos y válidos solo al final del trabajo.
PROCESAMIENTO POR LOTES - ANÁLISIS
Muy complejos.
PROCESAMIENTO POR LOTES - OPTIMIZACIÓN
Maximizar la productividad, maximizar cantidad de datos procesados.
PROCESAMIENTO POR LOTES - USOS
Calculos sobre conjuntos completos.
PROCESAMIENTO DE FLUJOS - DATOS
Datos ilimitados, no persistentes y llegan en registros pequeños.
PROCESAMIENTO DE FLUJOS - MODELO DE ACCESO
Un elemento a la vez o ventana pequeña.
PROCESAMIENTO DE FLUJOS - RESULTADOS
Actualizaciones inmediatas y continuas.
PROCESAMIENTO DE FLUJOS - ANÁLISIS
Simples y rápidos.
PROCESAMIENTO DE FLUJOS - OPTIMIZACIÓN
Minimizar latencia, menor tiempo entre llegada del dato y salida del resultado.
PROCESAMIENTO DE FLUJOS - USOS
Calculos independientes con requisitos de tiempo real.
SPARK STREAMING - MICRO-BATCH
Spark Streaming divide el flujo continuo en intervalos pequeños de tiempo, esos datos se agrupan en un RDD, se procesa y devuelve resultados.
SPARK STREAMING - DSTREAM
Flujo continuo de datos, que internamente es una secuencia continua de RDDs.
SPARK STREAMING - DSTREAM - LINAJE EN STREAMING
Al aplicar una transformación, se aplica a cada RDD individual del flujo.
SPARK STREAMING - DSTREAM - FUENTES DE ENTRADA
Se crean desde fuentes básicas (sockets) o avanzadas (Kafka).
SPARK STREAMING - OPERACIONES DE ESTADO - UPDATE_STATE_BY_KEY
Mantiene un estado global acumulativo: en conteo de palabras: suma las actuales a las que ya llevabas contadas.
SPARK STREAMING - OPERACIONES DE ESTADO - OPERACIONES DE VENTANA
Permiten aplicar transformaciones sobre una ventana deslizante de datos: # mas popular en los últimos 60s, cada 10s
SPARK STREAMING - TOLERANCIA A FALLOS
No se guardan los datos indefinidamente, se usan Checkpoints y WAL, guardando los datos de forma síncrona en un almacenamiento persistente.
SPARK STRUCTURED STREAMING
Construido sobre Spark SQL y DataFrames.
SPARK STRUCTURED STREAMING - TABLA ILIMITADA
Tratar flujo de datos como una tabla estática.
SPARK STRUCTURED STREAMING - TABLA ILIMITADA - ENTRADA
Cada nuevo evento se añade como nueva fila.
SPARK STRUCTURED STREAMING - TABLA ILIMITADA - CONSULTA CONTINUA
Se escribe una consulta SQL y Catalyst la convierte en plan de ejecución eficiente.
SPARK STRUCTURED STREAMING - TABLA ILIMITADA - RESULTADOS
Se actualizan continuamente
SPARK STRUCTURED STREAMING - MODOS DE SALIDA - APPEND
Se envían las filas nuevas, para datos que no cambian.
SPARK STRUCTURED STREAMING - MODOS DE SALIDA - UPDATE
Se envían las filas actualizadas o cambiadas.
SPARK STRUCTURED STREAMING - MODOS DE SALIDA - COMPLETE
Se envía todo cada vez.
SPARK STRUCTURED STREAMING - PROCESSING TIME
Procesar el dato según la hora del reloj del servidor.
SPARK STRUCTURED STREAMING - EVENT TIME
Procesar el dato según la hora en la que ocurrió el evento.
SPARK STRUCTURED STREAMING - WATERMARKING
Umbral para evitar que la memoria espere infinitamente datos retrasados.
MIDDLEWARE PUB/SUB - PRODUCTORES
Aplicaciones web o sensores que publican mensajes de forma masiva y asíncrona hacia un Topic
MIDDLEWARE PUB/SUB - TOPICS Y PARTICIONES
Canales lógicos que retienen mensajes en disco temporalmente.
MIDDLEWARE PUB/SUB - CONSUMIDORES
Se suscriben a topics y leen datos a su ritmo. Si se cae Spark, se reanuda donde lo dejó.
OPCIONES DE MERCADO - KAFKA
Open source, basada en clusteres de servidores físicos que particionan datos y gestionana un puntero para saber que ha leído cada uno.
OPCIONES DE MERCADO - GOOGLE CLOUD PUB/SUB
Serverless, escalabilidad automática.