Eksploracja Danych - Przygotowanie do Egzaminu

0.0(0)

Studied by 0 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/26

Earn XP

Description and Tags

Zestaw terminów i definicji z zakresu metod eksploracji danych, obejmujący analizę asocjacji, drzewa decyzyjne, klasyfikację bayesowską, sieci neuronowe oraz klasteryzację.

Last updated 6:28 PM on 6/16/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

27 Terms

New cards

Analiza asocjacji

Metoda służąca do odkrywania zależności między obiektami lub zdarzeniami występującymi wspólnie w danych, np. w celu tworzenia reguł typu ‐jeŸeli–to‐ w analizie koszyka zakupowego.

New cards

Zbiór częsty (frequent itemset)

Zbiór elementów, którego wsparcie w zbiorze danych jest większe niż zadany próg minimalny ( $minsup$ ).

New cards

Support (wsparcie)

Stosunek liczby transakcji wspierających dany zbiór atrybutów do wszystkich transakcji w bazie; określa częstość występowania reguły ( $sup(p → q) = |T_x| / |T|$ ).

New cards

Confidence (ufność)

Prawdopodobieństwo wystąpienia następnika ( $q$ ) przy założeniu wystąpienia poprzednika ( $p$ ); wyrażone wzorem $conf(p → q) = sup(p ∪ q) / sup(p)$ .

New cards

Lift

Parametr oceny reguły informujący, czy współwystępowanie jest większe niż przypadkowe; $lift > 1$ oznacza dodatnią zależność, a $lift = 1$ brak związku.

New cards

Algorytm Apriori

Iteracyjny algorytm analizy poziomej, w którym zbiory $k$ -elementowe są konstruowane na podstawie wcześniej wygenerowanych zbiorów częstych $(k-1)$ -elementowych.

New cards

Naiwny klasyfikator bayesowski

Klasyfikator oparty na twierdzeniu Bayesa, zakładający warunkową niezależność cech względem klasy decyzyjnej, co pozwala na obliczanie iloczynu prawdopodobieństw poszczególnych cech.

New cards

Drzewo decyzyjne

Graficzna ilustracja procesu podejmowania decyzji, gdzie węzły zawierają testy atrybutów, gałęzie odpowiadają wynikom testów, a liście wariantom decyzji.

New cards

Drzewo klasyfikacyjne

Typ drzewa decyzyjnego, w którym zmienna decyzyjna (zależna) jest kategorialna, czyli posiada charakter jakościowy lub porządkowy.

New cards

Drzewo regresyjne

Typ drzewa decyzyjnego, w którym zmienna decyzyjna (zależna) jest zmienną ilościową.

New cards

Indukcja drzewa decyzyjnego

Rekurencyjny proces budowy drzewa, w którym dla każdego węzła wybierany jest najbardziej znaczący atrybut dzielący zbiór przypadków na podzbiory.

New cards

Wskażnik Giniego

Miarą nieczystości węzła stosowana przy wyborze optymalnego testu w drzewach decyzyjnych; algorytm dąży do minimalizacji tego wskażnika przy podziale.

New cards

Zysk informacji

Redukcja entropii decyzji przy podziale zbioru obiektów; różnica między entropią zbioru przed podziałem a średnią ważoną entropii po podziale.

New cards

Przycinanie drzewa (pruning)

Usuwanie części gałęzi w celu ograniczenia zjawiska przeuczenia ( $overfitting$ ) i poprawy zdolności modelu do generalizacji na nowe dane.

New cards

Lasy losowe (Random Forest)

Metoda zespołowa oparta na budowie wielu drzew decyzyjnych na bazie prób bootstrapowych, gdzie ostateczna decyzja zapada w wyniku głosowania większościowego.

New cards

Klasyfikacja

Metoda uczenia nadzorowanego polegająca na budowie modelu w oparciu o dane z poprawnymi etykietami klas w celu przypisywania nowych przypadków do tych klas.

New cards

Klasteryzacja

Metoda uczenia nienadzorowanego, której celem jest wyłonienie grup (skupień) podobnych obiektów na podstawie ich cech, bez wcześniejszej znajomości klas.

New cards

Metody leniwe

Algorytmy klasyfikacji (np. $k$ -NN), które odraczają proces przetwarzania danych i budowy modelu do momentu pojawienia się zapytania o klasyfikację nowego obiektu.

New cards

Funkcja aktywacji

Funkcja matematyczna w neuronie (np. sigmoidalna, liniowa, progowa) przekształcająca sumę ważoną sygnałów wejściowych na sygnał wyjściowy.

New cards

Perceptron wielowarstwowy (MLP)

Sztuczna sieć neuronowa składająca się z warstwy wejściowej, warstw ukrytych i warstwy wyjściowej, przetwarzająca informacje poprzez sumy ważone i funkcje aktywacji.

New cards

Algorytm propagacji wstecznej błędu (Backpropagation)

Proces uczenia sieci MLP polegający na obliczaniu błędu na wyjściu i przekazywaniu go wstecz do warstwy wejściowej w celu aktualizacji wag metodą spadku gradientowego.

New cards

Metoda k-najbliższych sąsiadów (k-NN)

Metoda leniwa przypisująca nowy obiekt do klasy naje częściej występującej wśród jego $k$ najbardziej podobnych sąsiadów według miary odległości.

New cards

Metoda k-średnich (k-means)

Popularna metoda klasteryzacji podziałowej, która iteracyjnie przypisuje obiekty do najbliższego środka klastra i aktualizuje te środki jako średnie wartości cech.

New cards

Metoda PAM (Partitioning Around Medoids)

Metoda klasteryzacji podziałowej, w której reprezentantami klastrów są medoidy – rzeczywiste obiekty ze zbioru danych, a nie średnie arytmetyczne.

New cards

Indeks Silhouette

Miara oceny klasteryzacji; wartość bliska $1$ oznacza dobre dopasowanie obiektu do klastra, wartość bliska $0$ nakładanie się skupień.

New cards

Indeks Randa

Miara zgodności dwóch podziałģw danych; wartość $1$ oznacza pełną zgodność klasteryzacji, a $0$ jej całkowity brak.

New cards

Dendrogram

Graficzna postać wyniku klasteryzacji hierarchicznej, przedstawiająca strukturę powiązałę między obiektami w formie drzewa.