1/39
Zestaw haseł i definicji obejmujący podstawy Big Data, architekturę Apache Spark, uczenie maszynowe (MLlib), optymalizację oraz analitykę graf3w.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Big Data
Sytuacja, w kt3rej skala, szybkoœć napływu albo r3Źnorodnoœć danych powodują, Źe klasyczne narzędzia przestają wystarczać i trzeba sięgnąć po rozwiązania rozproszone.
Model 5V
Kluczowe cechy danych Big Data: Volume (objętoœć), Velocity (řrednia szybkoœć napływu), Variety (r3Źnorodnoœć format3w), Veracity (wiarygodnoœć) oraz Value (wartoœć biznesowa).
Apache Spark
Silnik przetwarzania rozproszonego, kt3ry pozwala wykonywać obliczenia szybciej nię klasyczny MapReduce dzięki pracy w pamięci operacyjnej.
RDD (Resilient Distributed Dataset)
Podstawowa, niezmienna i rozproszona kolekcja danych w Sparku, kt3ra moŹe być odtworzona dzięki historii operacji (lineage).
Lazy Evaluation (Leniwa ewaluacja)
Mechanizm, w kt3rym transformacje nie są wykonywane natychmiast, lecz dopiero w momencie wywołania akcji, takiej jak np. count() lub collect().
DataFrame
Gł3wny interfejs programistyczny w Sparku, kt3ry traktuje dane jako tabele ze schematem (nazwami kolumn i typami danych).
Spark SQL
Moduł Apache Spark słuŹący do pracy z danymi strukturalnymi przy pomocy zapytań w stylu relacyjnych baz danych.
CTE (Common Table Expression)
WyraŹenie definiowane za pomocą słowa WITH, kt3re pozwala nazwać wynik pořredni i wykorzystać go w dalszej częœci zapytania SQL, co poprawia czytelnoœć.
EXPLAIN
Polecenie pozwalające wyœwietlić plan wykonania zapytania, co umoŹliwia zrozumienie krok3w optymalizacyjnych i kosztownych operacji (np. shuffle).
RANK()
Funkcja okna nadająca ranking w obrębie grupy; przy remisach rekordy mają ten sam numer, a kolejny numer rankingu jest przeskakiwany.
ROW_NUMBER()
Funkcja okna numerująca rekordy kolejno w obrębie grupy, przypisująca unikalny numer nawet w przypadku identycznych wartoœci.
Format wierszowy
Spos3b zapisu danych rekord po rekordzie (np. CSV, JSON), wygodny do prostego podglądu, ale mało wydajny w analityce kolumnowej.
Format kolumnowy
Organizacja danych według kolumn (np. Parquet, ORC), optymalna pod kątem agregacji, kompresji i szybkoœci odczytu wybranych fragment3w danych.
Partycjonowanie danych
Fizyczny podział danych na dysku na katalogi według wybranych atrybut3w (np. rok, region), co ogranicza iloœć odczytywanych danych podczas filtrowania.
Teoria CAP
Zasada m3wiąca, Źe w przypadku podziału sieci (P) system rozproszony musi wybierać między sp3jnoœcią (C) a dostępnoœcią (A).
Shuffle
Operacja wymiany danych między partycjami na r3Źnych węzłach klastra, występująca przy operacjach takich jak groupBy czy join, obciąŹająca sieć i dysk.
Transformacje wąskie (Narrow)
Operacje, w kt3rych partycja wyjœciowa zaleŹy tylko od jednej partycji wejœciowej (brak shuffle), np. filter lub select.
Transformacje szerokie (Wide)
Operacje wymagające przesłania danych między węzłami (shuffle), np. join, distinct czy orderBy.
Data Skew
Zjawisko nier3wnomiernego rozkładu danych, w kt3rym pojedyncze partycje są znacznie większe od innych, co powoduje powstawanie wąskich gardeł (stragglers).
Broadcast Join
Technika optymalizacji polegająca na rozesłaniu małej tabeli do wszystkich executor3w, aby uniknąć kosztownego shuffle podczas joinu z duŹą tabelą.
MLlib
Biblioteka Apache Spark słuŹąca do uczenia maszynowego w řrodowisku rozproszonym, pracująca natywnie na DataFrame.
Transformer
Obiekt w Spark ML posiadający metodę transform(df), kt3ry przekształca jeden DataFrame w drugi (np. model dokonujący predykcji).
Estimator
Obiekt w Spark ML posiadający metodę fit(df), kt3ry musi zostać wytrenowany na danych, aby stać się Transformerem.
VectorAssembler
Narzędzie w MLlib łączące wiele kolumn z cechami w jedną kolumnę wektorową o nazwie features, wymaganą przez algorytmy ML.
Data Leakage
Błąd polegający na wprowadzeniu do modelu informacji, kt3rych nie powinien on znać w momencie predykcji (np. dane z przyszłoœci).
FinOps
Podejœcie do zarządzania kosztami technologii chmurowych, łączące perspektywę techniczną, finansową i biznesową.
Tokenizacja
Proces podziału tekstu na mniejsze jednostki, najczęœciej pojedyncze słowa (tokeny).
Stop-words
Powszechnie występujące słowa o niskiej wartoœci informacyjnej (np. "i", "oraz", "the"), kt3re są usuwane podczas przetwarzania tekstu.
TF-IDF
Technika waŹenia sł3w uwzględniająca ich częstotliwoœć w dokumencie (TF) oraz rzadkoœć w całym korpusie (IDF), co pozwala wyłonić słowa kluczowe.
Data Governance
Zbi3r zasad, proces3w i r3l słuŹących do odpowiedzialnego zarządzania danymi pod kątem bezpieczeństwa, jakoœci i zgodnoœci.
Pseudonimizacja
Zastępowanie identyfikator3w (np. e-mail) hashem lub innym identyfikatorem; zmniejsza ryzyko ujawnienia danych, ale jest odwracalne przy uŹyciu dodatkowych informacji.
Data Lineage
Wizualizacja lub opis pokazujący, skąd pochodzą dane, jakie przeszły transformacje i gdzie zostały zapisane.
DAG (Directed Acyclic Graph)
Skierowany graf acykliczny opisujący zależności między zadaniami (tasks) w pipeline danych.
Idempotentnoœć
Własnoœć zadania gwarantująca, Źe jego wielokrotne uruchomienie na tych samych danych wejœciowych zawsze da ten sam wynik i nie stworzy duplikat3w.
Przetwarzanie batchowe
Analiza danych zbieranych w duŹych paczkach i przetwarzanych okresowo, np. raz dziennie lub co godzinę.
Wierzchołki (Vertices)
Elementy grafu reprezentujące obiekty, takie jak uŹytkownik, miasto czy produkt.
Krawędzie (Edges)
Elementy grafu reprezentujące relacje między obiektami, np. "uŹytkownik kupił produkt".
PageRank
Algorytm oceny waŹnoœci wierzchołka w sieci na podstawie liczby i waŹnoœci innych wierzchołkąw, kt3re do niego prowadzą.
Komponent sp3jnoœci
Grupa wierzchołk3w w grafie, kt3re są ze sobą połączone bezpořrednimi lub pořrednimi œcieŹkami.
Supernode
Węzeł w grafie o ekstremalnie duŹej liczbie połączeń, kt3ry moŹe powodować problemy z wydajnoœcią i data skew.