1/26
Zestaw terminów i definicji z zakresu metod eksploracji danych, obejmujący analizę asocjacji, drzewa decyzyjne, klasyfikację bayesowską, sieci neuronowe oraz klasteryzację.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
Analiza asocjacji
Metoda służąca do odkrywania zależności między obiektami lub zdarzeniami występującymi wspólnie w danych, np. w celu tworzenia reguł typu ‐jeŸeli–to‐ w analizie koszyka zakupowego.
Zbiór częsty (frequent itemset)
Zbiór elementów, którego wsparcie w zbiorze danych jest większe niż zadany próg minimalny (minsup).
Support (wsparcie)
Stosunek liczby transakcji wspierających dany zbiór atrybutów do wszystkich transakcji w bazie; określa częstość występowania reguły (sup(p→q)=∣Tx∣/∣T∣).
Confidence (ufność)
Prawdopodobieństwo wystąpienia następnika (q) przy założeniu wystąpienia poprzednika (p); wyrażone wzorem conf(p→q)=sup(p∪q)/sup(p).
Lift
Parametr oceny reguły informujący, czy współwystępowanie jest większe niż przypadkowe; lift>1 oznacza dodatnią zależność, a lift=1 brak związku.
Algorytm Apriori
Iteracyjny algorytm analizy poziomej, w którym zbiory k-elementowe są konstruowane na podstawie wcześniej wygenerowanych zbiorów częstych (k−1)-elementowych.
Naiwny klasyfikator bayesowski
Klasyfikator oparty na twierdzeniu Bayesa, zakładający warunkową niezależność cech względem klasy decyzyjnej, co pozwala na obliczanie iloczynu prawdopodobieństw poszczególnych cech.
Drzewo decyzyjne
Graficzna ilustracja procesu podejmowania decyzji, gdzie węzły zawierają testy atrybutów, gałęzie odpowiadają wynikom testów, a liście wariantom decyzji.
Drzewo klasyfikacyjne
Typ drzewa decyzyjnego, w którym zmienna decyzyjna (zależna) jest kategorialna, czyli posiada charakter jakościowy lub porządkowy.
Drzewo regresyjne
Typ drzewa decyzyjnego, w którym zmienna decyzyjna (zależna) jest zmienną ilościową.
Indukcja drzewa decyzyjnego
Rekurencyjny proces budowy drzewa, w którym dla każdego węzła wybierany jest najbardziej znaczący atrybut dzielący zbiór przypadków na podzbiory.
Wskażnik Giniego
Miarą nieczystości węzła stosowana przy wyborze optymalnego testu w drzewach decyzyjnych; algorytm dąży do minimalizacji tego wskażnika przy podziale.
Zysk informacji
Redukcja entropii decyzji przy podziale zbioru obiektów; różnica między entropią zbioru przed podziałem a średnią ważoną entropii po podziale.
Przycinanie drzewa (pruning)
Usuwanie części gałęzi w celu ograniczenia zjawiska przeuczenia (overfitting) i poprawy zdolności modelu do generalizacji na nowe dane.
Lasy losowe (Random Forest)
Metoda zespołowa oparta na budowie wielu drzew decyzyjnych na bazie prób bootstrapowych, gdzie ostateczna decyzja zapada w wyniku głosowania większościowego.
Klasyfikacja
Metoda uczenia nadzorowanego polegająca na budowie modelu w oparciu o dane z poprawnymi etykietami klas w celu przypisywania nowych przypadków do tych klas.
Klasteryzacja
Metoda uczenia nienadzorowanego, której celem jest wyłonienie grup (skupień) podobnych obiektów na podstawie ich cech, bez wcześniejszej znajomości klas.
Metody leniwe
Algorytmy klasyfikacji (np. k-NN), które odraczają proces przetwarzania danych i budowy modelu do momentu pojawienia się zapytania o klasyfikację nowego obiektu.
Funkcja aktywacji
Funkcja matematyczna w neuronie (np. sigmoidalna, liniowa, progowa) przekształcająca sumę ważoną sygnałów wejściowych na sygnał wyjściowy.
Perceptron wielowarstwowy (MLP)
Sztuczna sieć neuronowa składająca się z warstwy wejściowej, warstw ukrytych i warstwy wyjściowej, przetwarzająca informacje poprzez sumy ważone i funkcje aktywacji.
Algorytm propagacji wstecznej błędu (Backpropagation)
Proces uczenia sieci MLP polegający na obliczaniu błędu na wyjściu i przekazywaniu go wstecz do warstwy wejściowej w celu aktualizacji wag metodą spadku gradientowego.
Metoda k-najbliższych sąsiadów (k-NN)
Metoda leniwa przypisująca nowy obiekt do klasy naje częściej występującej wśród jego k najbardziej podobnych sąsiadów według miary odległości.
Metoda k-średnich (k-means)
Popularna metoda klasteryzacji podziałowej, która iteracyjnie przypisuje obiekty do najbliższego środka klastra i aktualizuje te środki jako średnie wartości cech.
Metoda PAM (Partitioning Around Medoids)
Metoda klasteryzacji podziałowej, w której reprezentantami klastrów są medoidy – rzeczywiste obiekty ze zbioru danych, a nie średnie arytmetyczne.
Indeks Silhouette
Miara oceny klasteryzacji; wartość bliska 1 oznacza dobre dopasowanie obiektu do klastra, wartość bliska 0 nakładanie się skupień.
Indeks Randa
Miara zgodności dwóch podziałģw danych; wartość 1 oznacza pełną zgodność klasteryzacji, a 0 jej całkowity brak.
Dendrogram
Graficzna postać wyniku klasteryzacji hierarchicznej, przedstawiająca strukturę powiązałę między obiektami w formie drzewa.