Data mining

0.0(0)
Studied by 0 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/44

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 3:32 PM on 6/7/26
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

45 Terms

1
New cards

Modelowanie predykcyjne obejmuje:

a) analizę asocjacji, sieci neuronowe, analizę regresji

b) analizę skupień, analizę regresji, sieci neuronowe

c) analizę regresji, SVM, sieci neuronowe

c) analizę regresji, SVM, sieci neuronowe

2
New cards

Data mining skierowany obejmuje:

a) SVM, sieci neuronowe, drzewa decyzyjne

b) analizę skupień, sieci neuronowe, drzewa decyzyjne

c) analizę asocjacji, regresję logistyczną, SVM

a) SVM, sieci neuronowe, drzewa decyzyjne

3
New cards

Data mining nieskierowany obejmuje:

a) SVM, analizę asocjacji, sieci samoorganizujące się

b) analizę skupień, sieci neuronowe, drzewa decyzyjne

c) analizę asocjacji, analizę skupień, sieci samoorganizujące się

c) analizę asocjacji, analizę skupień, sieci samoorganizujące się

4
New cards

Losowe braki danych (MAR):

a) dotyczą sytuacji, w której prawdopodobieństwo wystąpienia braku wartości zmiennej w rekordzie nie zależy ani od zaobserwowanych danych ani od brakującej wartości

b) dotyczą niedostępności respondenta wynikających lub skorelowanych z cechami respondenta

c) dotyczą sytuacji, w której prawdopodobieństwo wystąpienia braku w rekordzie może zależeć od obserwowanych danych, ale nie od brakującej wartości

c) dotyczą sytuacji, w której prawdopodobieństwo wystąpienia braku w rekordzie może zależeć od obserwowanych danych, ale nie od brakującej wartości

5
New cards

Próbkowanie stosujemy, gdy:

a) chcemy wybrać zmienne tylko statystycznie istotne

b) mamy zbyt wiele rekordów

c) mamy zbyt wiele zmiennych

b) mamy zbyt wiele rekordów

6
New cards

Oversampling polega na

a) zwiększeniu liczby rekordów w mniej licznej klasie poprzez powielanie lub generowanie nowych danych

b) usunięciu rekordów z nadreprezentowanej klasy tak, aby liczba przypadków w każdej z klas była zbliżona

c) usunięciu odpowiednich zmiennych tak, aby liczba przypadków w każdej z klas była zbliżona

a) zwiększeniu liczby rekordów w mniej licznej klasie poprzez powielanie lub generowanie nowych danych

7
New cards

W modelu regresji logistycznej, ciągłe zmienne objaśniające:

a) wprowadzenie ich nie wymaga podjęcia żadnych działań przygotowawczych

b) muszą być poddane transformacji

c) muszą być poddane dyskretyzacji

a) wprowadzenie ich nie wymaga podjęcia żadnych działań przygotowawczych

8
New cards

Przycinanie drzewa decyzyjnego stosuje się w przypadku, gdy:

a) mamy zbyt dużo obserwacji

b) model jest przeuczony

c) model zbyt słabo odzwierciedla próbę uczącą

b) model jest przeuczony

9
New cards

Do oceny jakości podziału drzew w przypadku porządkowej zmiennej celu stosuje się:

a) kryterium entropii, kryterium Giniego

b) kryterium entropii, statystyka Chi-Kwadrat

c) kryterium Giniego, statystyka Chi-Kwadrat

a) kryterium entropii, kryterium Giniego

10
New cards

W modelach lasów losowych Breimana:

a) stosuje się przycinanie w celu uproszczenia modelu

b) do klasyfikacji ostatecznej wykorzystywana jest metoda głosowanie

c) każde drzewo konstruuje się wykorzystując ten sam zestaw zmiennych, losuje się jedynie podzbiory obserwacji

b) do klasyfikacji ostatecznej wykorzystywana jest metoda głosowanie

11
New cards

Funkcja aktywacji:

a) musi być zawsze taka sama w warstwie ukrytej i warstwie wyjściowej

b) może być inna w warstwie ukrytej, niż w warstwie wyjściowej

c) łączy sygnały wyjściowe z poprzedzających neuronów

b) może być inna w warstwie ukrytej, niż w warstwie wyjściowej

12
New cards

Funkcja aktywacji zawarta jest w sztucznych neuronach:

a) tylko w warstwie ukrytej sieci neuronowej

b) tylko w warstwie wejściowej sieci neuronowej

c) zarówno w warstwie ukrytej jak i wyjściowej sieci neuronowej

c) zarówno w warstwie ukrytej jak i wyjściowej sieci neuronowej

13
New cards

Warstwa wejściowa modelu sztucznej sieci neuronowej zawiera:

a) co najmniej tyle elementów, ile jest zmiennych objaśniających

b) dokładnie tyle elementów, ile jest zmiennych objaśniających

c) ustaloną przez użytkownika liczbę elementów, niezależną od ilości zmiennych objaśniających

a) co najmniej tyle elementów, ile jest zmiennych objaśniających

14
New cards

Na czym polega uczenie sztucznych sieci neuronowych:

a) na zmianie wartości wag

b) na zmianie liczby neuronów

c) na zmianie postaci funkcji kombinacji i aktywacji

a) na zmianie wartości wag

15
New cards

Dwudzielny problem klasyfikacyjny dotyczy:

a) przypadku pojedynczego neuronu wyjściowego z uprzednio ustawioną wartością progową oddzielającą dwie klasy

b) przypadku pojedynczego neuronu wyjściowego dla kilku kategorii jednoznacznie uporządkowanych

c) przypadku dwóch neuronów wyjściowych

a) przypadku pojedynczego neuronu wyjściowego z uprzednio ustawioną wartością progową oddzielającą dwie klasy

16
New cards

Grupowanie bez nadzoru dotyczy:

a) metody k-najbliższych sąsiadów

b) metody SOM – Kohonena

c) drzew decyzyjnych

b) metody SOM – Kohonena

17
New cards

W procesie rywalizacji sieci samoorganizujących:

a) wyznaczane są wartość odległości pomiędzy danymi wejściowymi a wagami neuronów

b) modyfikowane są wagi tylko dla neuronu wygrywającego

c) modyfikowane są wagi tylko dla neuronów sąsiadujących z neuronem wygrywającym

a) wyznaczane są wartość odległości pomiędzy danymi wejściowymi a wagami neuronów

18
New cards

W analizie asocjacji dla reguły "A to B" wsparcie reguły, to:

a) prawdopodobieństwo, że wystąpi B, gdy występuje A

b) prawdopodobieństwo, że wystąpi A, gdy występuje B

c) prawdopodobieństwo wystąpienia obu tych zdarzeń

c) prawdopodobieństwo wystąpienia obu tych zdarzeń

19
New cards

W analizie asocjacji dla reguły "A to B" ufność reguły, to:

a) prawdopodobieństwo, że wystąpi A, gdy występuje B

b) prawdopodobieństwo, że wystąpi B, gdy występuje A

c) prawdopodobieństwo wystąpienia obu tych zdarzeń

b) prawdopodobieństwo, że wystąpi B, gdy występuje A

20
New cards

Opisz krótko proces weryfikacji modeli predykcyjnych w data mining.

Zbiór danych dzieli się na próbę uczącą, walidacyjną i testową. Model buduje się na próbie uczącej, dostraja na walidacyjnej, a ostateczną ocenę jakości przeprowadza na próbie testowej

21
New cards

Na czym polegają metody sekwencyjne postępowania z brakami danych? Podać przykład.

Polegają na uzupełnianiu braków, zmienna po zmiennej, wykorzystuje się wartości zmiennych uzupełnionych we wcześniejszych krokach. Przykład: sekwencyjna imputacja regresyjna

22
New cards

Wymień dwie metody doboru liczby głównych składowych.

Kryterium Kaisera, wykres osypiska

23
New cards

Wymień trzy metody weryfikacji, czy model drzewa decyzyjnego został przeuczony.

a) Porównanie błędu na próbie uczącej z błędem na próbie walidacyjnej/testowej

b) Walidacja krzyżowa

c) Analiza krzywej błędu w funkcji złożoności drzewa

24
New cards

Do czego służy zbiór testowy i jaką część zbioru danych wybiera się do zbioru testowego? Odpowiedź uzasadnić.

Zbiór testowy służy do ostatecznej oceny jakości modelu na danych, które nie brały udziału w jego budowie. Wybiera się zwykle ok. 20–30% danych. Uzasadnienie: musi być niezależny od próby uczącej, aby ocena mocy predykcyjnej nie była zawyżona.

25
New cards

Co należy rozumieć pod pojęciem: brak losowy (MAR)?

Brak danych, którego prawdopodobieństwo wystąpienia może zależeć od wartości zaobserwowanych, ale nie zależy od samej brakującej wartości.

26
New cards

Co należy rozumieć pod pojęciem: brak całkowicie losowy (MCAR)?

Brak danych, którego prawdopodobieństwo wystąpienia nie zależy ani od wartości zaobserwowanych, ani od wartości brakującej.

27
New cards

Podaj dwie różnice w przeprowadzaniu klasyfikacji: regresja logistyczna a drzewo decyzyjne.

Regresja wymaga przygotowania danych, jest wrażliwa na obserwacje odstające; drzewo jest nieparametryczne, automatycznie wychwytuje interakcje

28
New cards

Przeprowadzenie podziału przestrzeni cech przy konstrukcji modelu drzewa decyzyjnego wymaga:

Wyboru zmiennej dzielącej oraz punktu podziału

29
New cards

Na czym polega różnica pomiędzy metodą bagging a boosting budowy klasyfikatora?

Bagging buduje wiele modeli równolegle. Boosting buduje modele sekwencyjnie.

30
New cards
<p><strong>Zinterpretować poniższy rysunek otrzymany dla pewnego klasyfikatora (krzywe ROC).</strong> </p>

Zinterpretować poniższy rysunek otrzymany dla pewnego klasyfikatora (krzywe ROC).

Im krzywa bardziej wygięta w stronę lewego górnego rogu, tym lepszy model. Krzywe leżące blisko przekątnej oznaczają słabą zdolność dyskryminacyjną.

31
New cards

Na czym polega uczenie sztucznych sieci neuronowych, wymień jeden algorytm uczenia.

Uczenie polega na iteracyjnej zmianie wartości wag połączeń Przykładowy algorytm: wsteczna propagacja błędów (backpropagation)

32
New cards

W jaki sposób możemy poprawić moc predykcyjną modelu sieci neuronowej?

Przez zwiększenie/oczyszczenie danych uczących, selekcję i transformację zmiennych.

33
New cards

Jak interpretujemy miarę Lift w analizie asocjacji?

Lift > 1 oznacza dodatnią zależność, Lift = 1 — niezależność zdarzeń, Lift < 1 — zależność ujemną.

34
New cards
<p><strong>Oceń moc predykcyjną modelu (tabela AUC/MISC).</strong> </p>

Oceń moc predykcyjną modelu (tabela AUC/MISC).

AUC wartości bliskie 0,85–0,88 świadczą o dobrej zdolności dyskryminacyjnej modelu. Niewielki spadek AUC i wzrost MISC błędu od próby uczącej do testowej wskazują na lekkie przeuczenie, ale różnice są małe — model jest stabilny i ma dobrą moc predykcyjną.

35
New cards

Narysuj schemat MLP (jedna warstwa ukryta z dwoma neuronami; płeć – 2 poziomy, miejsce_zamieszkania – 3 poziomy, wykształcenie – 3 poziomy; jeden neuron wyjściowy).

<p></p>
36
New cards

Czy zmienne do analizy skupień (klasteryzacji) powinny być wystandaryzowane?

a) niekoniecznie, jeśli zbiór jest mało liczny to nie muszą być wystandaryzowane

b) tak, ponieważ rozkłady będą wówczas miały taki sam rozkład

c) tak, powinny być wystandaryzowane ponieważ wykorzystujemy odległości pomiędzy obserwacjami

c) tak, powinny być wystandaryzowane ponieważ wykorzystujemy odległości pomiędzy obserwacjami

37
New cards

Co daje nam w budowie drzew decyzyjnych podział binarny?

a) mniej rozbudowane drzewo decyzyjne

b) lepszą jakość podziału w przypadku dużej liczby zmiennych

c) lepsze dopasowanie modelu do danych

b) lepszą jakość podziału w przypadku dużej liczby zmiennych

38
New cards

Czym jest ufność i wsparcie w analizie koszykowej?

a) wsparcie to częstość występowania badanej reguły wśród wszystkich przypadków, natomiast ufność to częstość występowania reguły wśród transakcji zawierających pierwszy produkt

b) wsparcie to częstość występowania badanej reguły wśród przypadków zawierających drugi produkt, natomiast ufność to częstość występowania reguły wśród transakcji zawierających pierwszy produkt

c) wsparcie to częstość występowania badanej reguły wśród wszystkich przypadków, natomiast ufność to częstość występowania reguły wśród transakcji zawierających przynajmniej drugi produkt

a) wsparcie to częstość występowania badanej reguły wśród wszystkich przypadków, natomiast ufność to częstość występowania reguły wśród transakcji zawierających pierwszy produkt

39
New cards

Jaki cel ma tworzenie zbioru testowego?

a) zbiór testowy to zbiór do niezależnej oceny wybranego modelu

b) zbiór testowy to zbiór do przycinania drzew decyzyjnych

c) zbiór testowy służy do oceny dopasowania modelu

a) zbiór testowy to zbiór do niezależnej oceny wybranego modelu

40
New cards

W jaki sposób w oparciu o kryterium Entropii wybierany jest podział drzewa decyzyjnego?

a) im mniejsza wartość Entropii tym lepsza jakość podziału

b) im większa wartość Entropii tym lepsza jakość podziału

c) jakość podziału nie zależy od wartości Entropii

a) im mniejsza wartość Entropii tym lepsza jakość podziału

41
New cards

Jakie jest zadanie funkcji aktywacji w modelu sztucznego neuronu?

a) agregacja informacji na wejściu do neuronu

b) przekształcenie informacji na wyjściu z neuronu

c) przekształcenie informacji na wejściu do neuronu

b) przekształcenie informacji na wyjściu z neuronu

42
New cards

Jaką największą wadę mają sieci neuronowe, jak można sobie z nią radzić?

a) sieci neuronowe bardzo często bywają przeuczone, zbytnio dopasowują się do zbioru walidacyjnego, należy usunąć zbędne zmienne z modelu i oszacować model ponownie

b) największą wadą sieci neuronowych jest brak interpretacji zależności między zmienną zależną a zmiennymi objaśniającymi, można przybliżyć interpretację za pomocą drzewa decyzyjnego na wyniku sieci neuronowej

c) największą wadą sieci jest skomplikowana architektura która powoduje że oszacowanie modelu jest bardzo czasochłonne i wymaga bardzo dużego zbioru danych

b) największą wadą sieci neuronowych jest brak interpretacji zależności między zmienną zależną a zmiennymi objaśniającymi, można przybliżyć interpretację za pomocą drzewa decyzyjnego na wyniku sieci neuronowej

43
New cards

W jaki sposób w oparciu o kryterium Chi-kwadrat wybierany jest podział drzewa decyzyjnego?

a) wybierany jest podział o najniższej wartości statystyki Chi-kwadrat

b) wybierany jest podział o najwyższej wartości p-value dla Chi-kwadrat

c) wybierany jest podział o najwyższej wartości logworth dla Chi-kwadrat

c) wybierany jest podział o najwyższej wartości logworth dla Chi-kwadrat

44
New cards

Czy w modelu regresji logistycznej zmienne objaśniające mogą być ciągłe? Jakie jest ograniczenie na liczbę zmiennych objaśniających?

a) nie mogą być ciągłe, zmienne ciągłe muszą zostać zdyskretyzowane przed włączeniem do modelu, nie ma ograniczenia na liczbę zmiennych objaśniających

b) mogą być ciągłe, ograniczeniem na liczbę zmiennych objaśniających jest liczba obserwacji w zbiorze

c) mogą być ciągłe, nie ma ograniczenia na liczbę zmiennych objaśniających

b) mogą być ciągłe, ograniczeniem na liczbę zmiennych objaśniających jest liczba obserwacji w zbiorze

45
New cards

Czym się różnią sieci radialne od standardowych sieci neuronowych?

a) sieci radialne wykorzystują tylko dyskretne zmienne objaśniające

b) sieci radialne wymagają standaryzacji zmiennych wejściowych do modelu

c) sieci radialne wykorzystują funkcje radialne zamiast liniowej funkcji kombinacji

c) sieci radialne wykorzystują funkcje radialne zamiast liniowej funkcji kombinacji