Practice Flashcards: Big Data and Apache Spark Fundamentals

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/39

Earn XP

Description and Tags

Zestaw haseł i definicji obejmujący podstawy Big Data, architekturę Apache Spark, uczenie maszynowe (MLlib), optymalizację oraz analitykę graf3w.

Last updated 12:58 PM on 6/19/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

40 Terms

New cards

Big Data

Sytuacja, w kt3rej skala, szybkoœć napływu albo r3Źnorodnoœć danych powodują, Źe klasyczne narzędzia przestają wystarczać i trzeba sięgnąć po rozwiązania rozproszone.

New cards

Model $5V$

Kluczowe cechy danych Big Data: Volume (objętoœć), Velocity (řrednia szybkoœć napływu), Variety (r3Źnorodnoœć format3w), Veracity (wiarygodnoœć) oraz Value (wartoœć biznesowa).

New cards

Apache Spark

Silnik przetwarzania rozproszonego, kt3ry pozwala wykonywać obliczenia szybciej nię klasyczny MapReduce dzięki pracy w pamięci operacyjnej.

New cards

RDD (Resilient Distributed Dataset)

Podstawowa, niezmienna i rozproszona kolekcja danych w Sparku, kt3ra moŹe być odtworzona dzięki historii operacji (lineage).

New cards

Lazy Evaluation (Leniwa ewaluacja)

Mechanizm, w kt3rym transformacje nie są wykonywane natychmiast, lecz dopiero w momencie wywołania akcji, takiej jak np. $count()$ lub $collect()$ .

New cards

DataFrame

Gł3wny interfejs programistyczny w Sparku, kt3ry traktuje dane jako tabele ze schematem (nazwami kolumn i typami danych).

New cards

Spark SQL

Moduł Apache Spark słuŹący do pracy z danymi strukturalnymi przy pomocy zapytań w stylu relacyjnych baz danych.

New cards

CTE (Common Table Expression)

WyraŹenie definiowane za pomocą słowa $WITH$ , kt3re pozwala nazwać wynik pořredni i wykorzystać go w dalszej częœci zapytania SQL, co poprawia czytelnoœć.

New cards

EXPLAIN

Polecenie pozwalające wyœwietlić plan wykonania zapytania, co umoŹliwia zrozumienie krok3w optymalizacyjnych i kosztownych operacji (np. shuffle).

New cards

RANK()

Funkcja okna nadająca ranking w obrębie grupy; przy remisach rekordy mają ten sam numer, a kolejny numer rankingu jest przeskakiwany.

New cards

ROW_NUMBER()

Funkcja okna numerująca rekordy kolejno w obrębie grupy, przypisująca unikalny numer nawet w przypadku identycznych wartoœci.

New cards

Format wierszowy

Spos3b zapisu danych rekord po rekordzie (np. CSV, JSON), wygodny do prostego podglądu, ale mało wydajny w analityce kolumnowej.

New cards

Format kolumnowy

Organizacja danych według kolumn (np. Parquet, ORC), optymalna pod kątem agregacji, kompresji i szybkoœci odczytu wybranych fragment3w danych.

New cards

Partycjonowanie danych

Fizyczny podział danych na dysku na katalogi według wybranych atrybut3w (np. rok, region), co ogranicza iloœć odczytywanych danych podczas filtrowania.

New cards

Teoria CAP

Zasada m3wiąca, Źe w przypadku podziału sieci ( $P$ ) system rozproszony musi wybierać między sp3jnoœcią ( $C$ ) a dostępnoœcią ( $A$ ).

New cards

Shuffle

Operacja wymiany danych między partycjami na r3Źnych węzłach klastra, występująca przy operacjach takich jak $groupBy$ czy $join$ , obciąŹająca sieć i dysk.

New cards

Transformacje wąskie (Narrow)

Operacje, w kt3rych partycja wyjœciowa zaleŹy tylko od jednej partycji wejœciowej (brak shuffle), np. $filter$ lub $select$ .

New cards

Transformacje szerokie (Wide)

Operacje wymagające przesłania danych między węzłami (shuffle), np. $join$ , $distinct$ czy $orderBy$ .

New cards

Data Skew

Zjawisko nier3wnomiernego rozkładu danych, w kt3rym pojedyncze partycje są znacznie większe od innych, co powoduje powstawanie wąskich gardeł (stragglers).

New cards

Broadcast Join

Technika optymalizacji polegająca na rozesłaniu małej tabeli do wszystkich executor3w, aby uniknąć kosztownego shuffle podczas joinu z duŹą tabelą.

New cards

MLlib

Biblioteka Apache Spark słuŹąca do uczenia maszynowego w řrodowisku rozproszonym, pracująca natywnie na DataFrame.

New cards

Transformer

Obiekt w Spark ML posiadający metodę $transform(df)$ , kt3ry przekształca jeden DataFrame w drugi (np. model dokonujący predykcji).

New cards

Estimator

Obiekt w Spark ML posiadający metodę $fit(df)$ , kt3ry musi zostać wytrenowany na danych, aby stać się Transformerem.

New cards

VectorAssembler

Narzędzie w MLlib łączące wiele kolumn z cechami w jedną kolumnę wektorową o nazwie $features$ , wymaganą przez algorytmy ML.

New cards

Data Leakage

Błąd polegający na wprowadzeniu do modelu informacji, kt3rych nie powinien on znać w momencie predykcji (np. dane z przyszłoœci).

New cards

FinOps

Podejœcie do zarządzania kosztami technologii chmurowych, łączące perspektywę techniczną, finansową i biznesową.

New cards

Tokenizacja

Proces podziału tekstu na mniejsze jednostki, najczęœciej pojedyncze słowa (tokeny).

New cards

Stop-words

Powszechnie występujące słowa o niskiej wartoœci informacyjnej (np. "i", "oraz", "the"), kt3re są usuwane podczas przetwarzania tekstu.

New cards

TF-IDF

Technika waŹenia sł3w uwzględniająca ich częstotliwoœć w dokumencie (TF) oraz rzadkoœć w całym korpusie (IDF), co pozwala wyłonić słowa kluczowe.

New cards

Data Governance

Zbi3r zasad, proces3w i r3l słuŹących do odpowiedzialnego zarządzania danymi pod kątem bezpieczeństwa, jakoœci i zgodnoœci.

New cards

Pseudonimizacja

Zastępowanie identyfikator3w (np. e-mail) hashem lub innym identyfikatorem; zmniejsza ryzyko ujawnienia danych, ale jest odwracalne przy uŹyciu dodatkowych informacji.

New cards

Data Lineage

Wizualizacja lub opis pokazujący, skąd pochodzą dane, jakie przeszły transformacje i gdzie zostały zapisane.

New cards

DAG (Directed Acyclic Graph)

Skierowany graf acykliczny opisujący zależności między zadaniami ( $tasks$ ) w pipeline danych.

New cards

Idempotentnoœć

Własnoœć zadania gwarantująca, Źe jego wielokrotne uruchomienie na tych samych danych wejœciowych zawsze da ten sam wynik i nie stworzy duplikat3w.

New cards

Przetwarzanie batchowe

Analiza danych zbieranych w duŹych paczkach i przetwarzanych okresowo, np. raz dziennie lub co godzinę.

New cards

Wierzchołki (Vertices)

Elementy grafu reprezentujące obiekty, takie jak uŹytkownik, miasto czy produkt.

New cards

Krawędzie (Edges)

Elementy grafu reprezentujące relacje między obiektami, np. "uŹytkownik kupił produkt".

New cards

PageRank

Algorytm oceny waŹnoœci wierzchołka w sieci na podstawie liczby i waŹnoœci innych wierzchołkąw, kt3re do niego prowadzą.

New cards

Komponent sp3jnoœci

Grupa wierzchołk3w w grafie, kt3re są ze sobą połączone bezpořrednimi lub pořrednimi œcieŹkami.

New cards

Supernode

Węzeł w grafie o ekstremalnie duŹej liczbie połączeń, kt3ry moŹe powodować problemy z wydajnoœcią i data skew.