IAU

5.0(1)
studied byStudied by 27 people
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/299

encourage image

There's no tags or description

Looks like no tags are added yet.

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

300 Terms

1
New cards

Do akých hlavných kategórii sa deli Machine Learning (types of machine learning)?

  • Supervised learning - Task driven, all data is labeled

  • Unsupervised learning - Data driven, all data is unlabeled

  • Reinforcement learning - Learn from errors

2
New cards

Vymenuj typy Supervised learning

  • Classification - klasifikacia

  • Regression - regresia

<ul><li><p>Classification - klasifikacia</p></li><li><p>Regression - regresia</p></li></ul><p></p>
3
New cards

Vymenuj aplikacie Unsupervised learning

  • Clustering

  • Dimensionality reduction

4
New cards

Vymenuj aplikacie Reinforcement learning

  • Real-time decisions

  • Robot navigation

  • Game AI

  • Skill acquisition

5
New cards

Ako vyzera Data Science Lifecycle?

Cyklus:

  1. Define problem statement - presne definovať problém

  2. Data collection - Zber dát:

    • Primárny zber dát - Zber nových dát, ak žiadne podobné neexistujú

    • Sekundárny zber dát - Použitie už existujúcich dát z rôznych zdrojov

  3. Data Quality Check and Remediation - zabezpečenie, že dáta sú presné, úplné a bez chýb

  4. EDA (Exploratory Data Analysis) - porozumieť štruktúre dát

  5. Modeling the Data - vytváranie a trénovanie strojových modelov

  6. Data Communication - Model Deployment:

    • Komunikácia - Prezentácia zistení cieľovej skupine (napr. ukázanie výsledkov projektu)

    • Nasadenie - implementovaný do produkčného prostredia

6
New cards

Co je hlavnou podstatou Data Science?

Využívanie dát na riešenie problémov

7
New cards

Z čoho sa skladá práca dátového vedca?

  • Understand the data

  • Extract useful information out of it

  • Apply this in solving the problems

8
New cards

Vysvetli vzťah medzi Data Science, AI a ML

  1. Data Science:

    • Najširší koncept

    • Zbieranie, prípravu a analýzu dát

    • Celý dátový cyklus

  2. AI:

    • Podmnožina dátovej vedy, ma pod sebou ML

    • Technológie, ktoré umožňujú strojom rozumieť, interpretovať, učiť sa a robiť inteligentné rozhodnutia

  3. ML:

    • Podmnožina AI

    • algoritmy, ktoré sa dokážu učiť a zlepšovať na základe dát

<ol><li><p>Data Science:</p><ul><li><p>Najširší koncept</p></li><li><p>Zbieranie, prípravu a analýzu dát</p></li><li><p>Celý dátový cyklus</p></li></ul></li><li><p>AI:</p><ul><li><p>Podmnožina dátovej vedy, ma pod sebou ML</p></li><li><p>Technológie, ktoré umožňujú strojom rozumieť, interpretovať, učiť sa a robiť inteligentné rozhodnutia</p></li></ul></li><li><p>ML:</p><ul><li><p>Podmnožina AI</p></li><li><p>algoritmy, ktoré sa dokážu učiť a zlepšovať na základe dát</p></li></ul></li></ol><p></p>
9
New cards

Vymenuj požiadavky na prácu v dátovej vede

  • Netechnické:

    • Zvedavosť

    • Kritické myslenie

    • Komunikačné zručnosti

  • Technické:

    • ML

    • Štatistika

    • Matematické modelovanie

    • Počítačové programovanie

    • Databázy

10
New cards

Čo je to CRISP-DM?

  • Cross-Industry Standard Process for Data Mining

  • štandard pre získavanie, analyzovanie, modelovanie a aplikáciu dát

<ul><li><p>Cross-Industry Standard Process for Data Mining</p></li><li><p>štandard pre získavanie, analyzovanie, modelovanie a aplikáciu dát</p></li></ul><p></p>
11
New cards

Vymenuj kroky CRISP-DM.

CRISP-DM je repetitive a kroky, až na deployment sa môžu opakovať.

  1. Business Understanding - Jasne definovať problém, ktorý treba riešiť.

  2. Data Understanding - EDA

  3. Data Preparation - môže zabrať až 80 % času projektu

  4. Modeling

  5. Evaluation

  6. Deployment / Production

<p>CRISP-DM je <span>repetitive</span> a kroky, až na deployment sa môžu opakovať.</p><ol><li><p><strong>Business Understanding</strong> - Jasne definovať problém, ktorý treba riešiť.</p></li><li><p><strong>Data Understanding</strong> - EDA</p></li><li><p><strong>Data Preparation</strong> - môže zabrať až 80 % času projektu</p></li><li><p><strong>Modeling</strong></p></li><li><p><strong>Evaluation</strong></p></li><li><p><strong>Deployment / Production</strong></p></li></ol><p></p>
12
New cards

DevOps diagram fáz

knowt flashcard image
13
New cards

MLOPs diagram fáz

knowt flashcard image
14
New cards

Data Science Ethics

  • Protect user and public

  • Collect only needed data

  • Promote transparency

  • Guard privacy

  • Identify and scrub (remove) sensitive data

  • React quickly and professionally to data breaches

15
New cards

Ako znie filozofia EDA?

  • EDA ako súbor nástrojov, medzi ktoré patria grafy, vizualizácie a štatistiky

  • EDA ako mindset, kde ide o porozumenie dát a ich spájanie s procesmi

  • EDA ako osobný proces medzi analytikom a dátami

16
New cards

Data variable types s ich popismi a podtypmi

  • Numerical / quantitative:

    • Continuous = float

    • Discrete = integer

  • Categorical / qualitative:

    • Nominal - bez prirodzeného poradia, napr. red, green, blue

    • Ordinal - majú prirodzené poradie, napr. always, usually, sometimes, rarely

    • Boolean

  • Text

  • Time series - timestamp

  • Multimedia - video, audio, image

17
New cards

EDA postup / stratégia

  1. Analýza jednotlivých premenných

  2. Analýza vzťahov medzi premennými

  3. Vizualizácia dát v grafoch

  4. Analýza štatistických metrík

  5. Iteratívny proces - opakuj potrebné body

  6. Identifikuj otázky na analýzu dát a zoradiť ich od najmenej dôležitých po čo najviac

  7. Hľadaj odpovede na otázky pomocou grafických a analytických prístupov

  8. Zodpovedaj na otázky a následne z nich vyvoď ďalšie

18
New cards

Objectives of EDA

  • Discover patterns

  • Spot anomalies

  • Frame hypothesis

  • Check assumptions

19
New cards

Ako vyzerá Uniform distribution?

knowt flashcard image
20
New cards

Ako vyzerá Bernoulli distribution?

knowt flashcard image
21
New cards

Ako vyzerá Hypergeometric distribution?

knowt flashcard image
22
New cards

Ako vyzerá Binomial distribution?

knowt flashcard image
23
New cards

Ako vyzerá Negative Binomial distribution?

knowt flashcard image
24
New cards

Ako vyzerá Poisson distribution?

knowt flashcard image
25
New cards

Ako vyzerá Geometric distribution?

knowt flashcard image
26
New cards

Ako vyzerá Exponential distribution?

knowt flashcard image
27
New cards

Ako vyzerá Normal / Gaussian distribution?

knowt flashcard image
28
New cards

Ako vyzerá Student’s t distribution?

knowt flashcard image
29
New cards

Ako vyzerá Weibull distribution?

knowt flashcard image
30
New cards

Ako vyzerá Beta distribution?

knowt flashcard image
31
New cards

Ako vyzerá Gamma distribution?

knowt flashcard image
32
New cards

Ako vyzerá Chi-Squared distribution?

knowt flashcard image
33
New cards

Ako vyzerá Log Normal distribution?

knowt flashcard image
34
New cards

Ako vyzerá Normal distribution, ktorá má Positive Skew?

knowt flashcard image
35
New cards

Ako vyzerá Normal distribution, ktorá má Symmetrical Distribution?

knowt flashcard image
36
New cards

Ako vyzerá Normal distribution, ktorá má Negative Skew?

knowt flashcard image
37
New cards

Čo je to central tendency?

Centrálna tendencia je stred dátovej distribúcie, vyjadruje kde sa sústreďuje väčšina dát.

38
New cards

Vymenuj Measurements of Central tendency

  • mean - priemer

  • median - stredná hodnota

  • mode - najčastejšie sa vyskytujúca hodnota

39
New cards

Vymenuj Measurements of Dispersion.

  • Variance - rozptyl, meria priemernú kvadratickú odchýlku každej hodnoty od priemeru

  • Standard deviation - štandardná odchyľka, je odmocnina z rozptylu

40
New cards

Aký je rozdiel medzi Population variance a Sample variance?

  • Population variance:

    • Meria, ako sa jednotlivé hodnoty v celej populácii odlišujú od priemeru populácie.

    • Používa celú populáciu a presný priemer populácie.

  • Sample variance:

    • Odhad variability na základe vzorky z populácie.

    • Používa len vzorku a odhaduje priemer vzorky.

41
New cards

Graf s rôznymi Variances of Samples

knowt flashcard image
42
New cards

Čo je to Skewness a aké je jej rozloženie?

  • šikmosť

  • Skewness is a measure of asymmetry

  • Rozloženie:

    • = 0 - normally distributed

    • > 0 - more weight in the left tail - positive skew

    • < 0 - more weight in the right tail - negative skew

<ul><li><p>šikmosť</p></li><li><p><strong>Skewness is a measure of asymmetry</strong></p></li><li><p>Rozloženie:</p><ul><li><p>= 0 - normally distributed</p></li><li><p>&gt; 0 - more weight in the left tail - positive skew</p></li><li><p>&lt; 0 - more weight in the right tail - negative skew</p></li></ul></li></ul><p></p>
43
New cards

Čo je to Kurtosis?

  • špicatosť

  • meria, či má rozloženie ostrý vrchol (peaked) alebo plochý vrchol (flat top) v porovnaní s normálnym rozdelením

<ul><li><p>špicatosť</p></li><li><p>meria, či má rozloženie ostrý vrchol (peaked) alebo plochý vrchol (flat top) v porovnaní s normálnym rozdelením</p></li></ul><p></p>
44
New cards

Aký má vplyv normálová distribúcia na kvalitu klasifikácie?

  • Čím je väčší prekryv medzi distribúciami, tým je vyššia pravdepodobnosť chyby

  • prípady:

    • Not separable - výrazne sa prekrývajú (sú veľmi podobné), vysoká pravdepodobnosť chyby

    • Slightly separable - rozdelenia tried sú oddelené, ale stále sa mierne prekrývajú, Pravdepodobnosť chyby sa znižuje, ale stále nie je zanedbateľná

    • Well separable - rozdelenia tried sú takmer úplne oddelené, veľmi nízka pravdepodobnosť chyby

<ul><li><p>Čím je väčší prekryv medzi distribúciami, tým je vyššia pravdepodobnosť chyby</p></li><li><p>prípady:</p><ul><li><p>Not separable - výrazne sa prekrývajú (sú veľmi podobné), vysoká pravdepodobnosť chyby</p></li><li><p>Slightly separable - rozdelenia tried sú oddelené, ale stále sa mierne prekrývajú, Pravdepodobnosť chyby sa znižuje, ale stále nie je zanedbateľná</p></li><li><p>Well separable - rozdelenia tried sú takmer úplne oddelené, veľmi nízka pravdepodobnosť chyby</p></li></ul></li></ul><p></p>
45
New cards

Čo je to Correlation coefficient, typy a hodnoty?

  • meria silu a smer lineárneho vzťahu medzi dvoma premennými

  • typy korelácií:

    • Pearson correlation coefficient - PCC

    • Matthews correlation coefficient - MCC

    • Phi coefficient

  • Ak je hodnota korelačného koeficientu:

    • = 1 - perfektná kladná korelácia

    • = 0 - žiadna korelácia

    • = -1 - perfektná záporná korelácia

46
New cards

Ako vyzerá graf dvoch premenných, medzi ktorými je Strong positive correlation?

knowt flashcard image
47
New cards

Ako vyzerá graf dvoch premenných, medzi ktorými je Moderate positive correlation?

knowt flashcard image
48
New cards

Ako vyzerá graf dvoch premenných, medzi ktorými je No correlation?

knowt flashcard image
49
New cards

Ako vyzerá graf dvoch premenných, medzi ktorými je Moderate negative correlation?

knowt flashcard image
50
New cards

Ako vyzerá graf dvoch premenných, medzi ktorými je Strong negative correlation?

knowt flashcard image
51
New cards

Ako vyzerá graf dvoch premenných, medzi ktorými je Curvilinear correlation?

knowt flashcard image
52
New cards

Čo je to podobnosť?

Podobnosť (similarity) medzi objektami vyjadruje, ako blízko sú si v určitej dimenzii.

53
New cards

Čo je to Euclidean distance?

Meria „priamu“ vzdialenosť medzi dvoma bodmi v n-dimenzionálnom priestore.

<p>Meria „priamu“ vzdialenosť medzi dvoma bodmi v n-dimenzionálnom priestore.</p><p></p>
54
New cards

Čo je to Cosine similarity?

Meria uhol medzi dvoma vektormi v priestore, pričom ignoruje ich veľkosť (vektorová normalizácia).

<p>Meria uhol medzi dvoma vektormi v priestore, pričom ignoruje ich veľkosť (vektorová normalizácia).</p>
55
New cards

Čo je to Hamming distance?

Počet pozícií, na ktorých sa dva binárne reťazce (alebo vektory) líšia.

<p>Počet pozícií, na ktorých sa dva binárne reťazce (alebo vektory) líšia.</p>
56
New cards

Čo je to Manhattan distance?

Meria vzdialenosť ako súčet absolútnych rozdielov medzi súradnicami.

<p>Meria vzdialenosť ako súčet absolútnych rozdielov medzi súradnicami.</p>
57
New cards

Čo je to Minkowski distance?

Generalizuje Euklidovskú a Manhattanskú vzdialenosť.

<p>Generalizuje Euklidovskú a Manhattanskú vzdialenosť.</p>
58
New cards

Čo je to Jaccard similarity?

Meria podobnosť medzi množinami.

<p>Meria podobnosť medzi množinami.</p>
59
New cards

Čo je to Haversine distance?

Používa sa na výpočet vzdialeností medzi bodmi na sfére.

<p>Používa sa na výpočet vzdialeností medzi bodmi na sfére.</p>
60
New cards

Vymenuj typy korelácii s ich metódami.

  • Linear correlations - Merajú lineárny vzťah medzi dvoma premennými.

    • Information Gain

    • R2

  • Rank Correlations - Merajú, ako sa poradie hodnôt jednej premennej zhoduje s poradiami hodnôt druhej premennej.

    • Spearman

    • Kendall

  • Heatmap - Grafická reprezentácia korelačných koeficientov medzi premennými v matici.

61
New cards

Does correlation imply causation?

Znamená korelácia príčinu súvislosti?

Nie. Aj keď dve premenné vykazujú silnú koreláciu, neznamená to, že jedna priamo spôsobuje zmenu v druhej.

Correlation = ako silne sú dve premenné lineárne závislé

Causation = zmena v jednej premennej spôsobuje zmenu v druhej premennej

<p>Nie. Aj keď dve premenné vykazujú silnú koreláciu, neznamená to, že jedna priamo spôsobuje zmenu v druhej.</p><p>Correlation = ako silne sú dve premenné lineárne závislé</p><p>Causation = zmena v jednej premennej spôsobuje zmenu v druhej premennej</p>
62
New cards

Workflow pre machine learning v kontexte supervised learning

knowt flashcard image
63
New cards

Čo je to data drift a aké má dôsledky?

Zmenu v distribúcii dát, ktoré prichádzajú v produkcii, v porovnaní s distribúciou dát použitou počas tréningu modelu.

Dôsledkom je zníženie presnosti modelu, pretože model už nedokáže správne generalizovať na nových dátach

64
New cards

Čo je to concept / model drift a aké má dôsledky?

Znamená, že vzťah medzi vstupmi a výstupmi, ktorý model zachytil počas tréningu, sa mení. Pokročilejšia forma data drift, kde dochádza k zmene samotnej podstaty problému.

Dôsledkom je, že začne robiť nesprávne predikcie, pretože jeho pôvodný koncept už neplatí.

65
New cards

Aké sú zásady pri data sampling?

  • musia byť reprezentatívne pre celú populáciu, z ktorej boli získané

  • musia obsahovať dostatok informácií, aby model dokázal generalizovať na nové, nevidené dáta

  • je dôležité zahrnúť všetky relevantné premenné (features), pretože medzi nimi môžu byť závislosti alebo vzťahy, ktoré ovplyvňujú výsledky

66
New cards

Aké sú kľúčové kroky pri data sampling?

  1. Take multiple samples - použitie viacerých vzoriek z populácie zvyšuje spoľahlivosť výsledkov

  2. Repeat the survey - Opakovanie zisťovania pomáha overiť, či výsledky skutočne reprezentujú celú populáciu

  3. For big sample size, use cross-validation - Rozdeľte dáta na tréningové a testovacie časti. Pomocou krížovej validácie otestujte model na rôznych častiach dát a overte jeho výkon.

67
New cards

Čo je to Subsampling?

Subsampling je technika, ktorá sa používa pri práci s veľkými datasetmi, aby sa z nich vybrala podmnožina dát, ktorá:

  • Reprezentuje celý dataset

  • Znižuje výpočtové náklady

  • Umožňuje generalizáciu modelu

68
New cards

Ako sa delia dáta?

Training sample - Používa sa na trénovanie modelu / naučenie vzťahov medzi features a cieľovými premennými. Pomocou nich sa učí parametre modelu.

Testing sample - Používa sa na hodnotenie výkonu modelu na nevidených dátach. Nesmú byť použité pri tréningu modelu.

Validation sample - Používajú sa na doladenie hyperparametrov modelu. Slúžia na priebežné hodnotenie modelu počas tréningu.

Všetky vzorky musia reprezentovať populáciu dát.

Shuffling sa používa na zabezpečenie náhodnosti v rozdelení dát.

<p><strong>Training sample</strong> - Používa sa na trénovanie modelu / naučenie vzťahov medzi features a cieľovými premennými. Pomocou nich sa učí parametre modelu.</p><p><strong>Testing sample</strong> - Používa sa na hodnotenie výkonu modelu na nevidených dátach. Nesmú byť použité pri tréningu modelu.</p><p><strong>Validation sample - </strong>Používajú sa na doladenie hyperparametrov modelu. Slúžia na priebežné hodnotenie modelu počas tréningu.</p><p>Všetky vzorky musia reprezentovať populáciu dát.</p><p>Shuffling sa používa na zabezpečenie náhodnosti v rozdelení dát.</p><p></p>
69
New cards

Aké sú najštandardnejšie pomery rozdelenia dát?

train / test

65 / 35

70 / 30

75 / 25

80 / 20

70
New cards

Čo je to a ako funguje coss-validation?

Technika používaná v ML a štatistike na hodnotenie výkonu modelu. Získať presnejšie odhady toho, ako dobre model generalizuje na nevidené dáta, a zároveň efektívne využíva dostupný dataset.

Funguje tak, že rozdelí dáta na časti, nazývané foldy. Následne opakuje raz jeden fold použije na trénovanie a druhý na testovanie. Výsledná premenná sa vypočíta ako priemer týchto foldov.

71
New cards

Čo je to test statistic?

Číslo vypočítané pomocou štatistického testu.

Slúži na kvantifikáciu rozdielu medzi pozorovanými dátami a tým, čo by sme očakávali podľa nulovej hypotézy.

Pomáha rozhodnúť, či zamietneme alebo prijmeme nulovú hypotézu.

72
New cards

Aké sú hlavné predpoklady statistical tests a čo robiť ak ich dáta nespĺňajú?

  1. Dáta sú normálne rozložené

  2. Skupiny, ktoré sa porovnávajú, majú podobnú varianciu

  3. Dáta sú nezávislé

Ak dáta spĺňajú tieto predpoklady, tak treba použiť parametrické štatistické testy.

Ak dáta nespĺňajú tieto predpoklady, tak treba použiť neparametrické štatistické testy, lebo neparametrické testy majú menej predpokladov, ale poskytujú slabšie závery.

73
New cards

Čo je to Frequency Analysis a čo všetko sem patrí?

Frekvenčná analýza sa zameriava na identifikáciu základných štatistických vlastností datasetu.

Pomáha pochopiť, ako sú dáta rozložené, a poskytuje prehľad o ich centrálnych hodnotách, rozptyle a percentiloch.

Patrí sem:

  • Measures of Central Tendency

  • Measures of Dispersion

  • Percentile Values

74
New cards

Ako vyzerá Normal Q-Q Plot, ktorý je light tailed?

knowt flashcard image
75
New cards

Ako vyzerá Normal Q-Q Plot, ktorý je left skew?

knowt flashcard image
76
New cards

Ako vyzerá Normal Q-Q Plot, ktorý je normal?

knowt flashcard image
77
New cards

Ako vyzerá Normal Q-Q Plot, ktorý je bimodal?

knowt flashcard image
78
New cards

Ako vyzerá Normal Q-Q Plot, ktorý je heavy tailed?

knowt flashcard image
79
New cards

Ako vyzerá Normal Q-Q Plot, ktorý je right skew?

knowt flashcard image
80
New cards

Čo je to a čo určuje Shapiro-Wilk test?

Overuje, či dáta pochádzajú z normálneho (Gaussian) rozdelenia.

Hypotézy:

  • Nulová hypotéza: Dáta sú normálne rozložené.

  • Alternatívna hypotéza: Dáta nie sú normálne rozložené.

Ak je p-hodnota:

  • > 0.05 tak dáta sú normálne rozložené

  • <= 0.05 tak dáta nepochádzajú z normálneho rozdelenia

81
New cards

Akú má nevýhodu Shapiro-Wilk test?

Pri veľkých vzorkách (n > 5000) sa často odmieta nultá hypotéza, aj keď rozdiely od normálnosti sú malé a prakticky nevýznamné.

Alternatívy pre veľké vzorky:

  • Anderson-Darling test

  • Kolmogorov-Smirnov test

82
New cards

Čo je to Levene Test?

Testuje homogenitu variancií medzi skupinami, teda či všetky skupiny majú približne rovnaké variancie.

Homogenita variancií je dôležitým predpokladom mnohých štatistických testov.

83
New cards

Ako sa nazýva equal variances across samples?

homogeneity of variance

84
New cards

Ako si vybrať ktorými testami budem testovať hypotézy?

Podľa typu dát, ak :

  • sú dáta Gaussian - používajú sa parametrické metódy:

    • Student's T-test

    • Analysis of Variance (ANOVA)

  • nie sú dáta Gaussian - používajú sa neparametrické metódy:

    • Mann-Whitney U Test

    • Kruskal-Wallis H Test

85
New cards

Ako rozhodnúť o type dát (či sú alebo nie sú Gaussian)?

  • Vizualizácia dát:

    • Histogram, Q-Q graf, boxplot.

  • Testy normálnosti:

    • Shapiro-Wilk Test

    • Kolmogorov-Smirnov Test

    • Anderson-Darling Test

86
New cards

Aký je rozdiel medzi parametrickými a neparametrickými testami?

  • Parametrické:

    • Predpokladajú, že dáta pochádzajú z konkrétneho rozdelenia

    • Majú prísne požiadavky na dáta, ktoré musia byť splnené, aby boli výsledky spoľahlivé - Citlivé na porušenie predpokladov

    • Majú vyššiu štatistickú silu, ak sú splnené predpoklady

    • Vyššia presnosť

  • Neparametické:

    • Nevyžadujú konkrétne štatistické rozdelenie dát

    • Fungujú aj pri nenormálne rozložených dátach alebo nerovnakých varianciách

    • Majú nižšiu štatistickú silu

    • Nižšia presnosť

87
New cards

Popíš Student’s T-test / T-test.

  • Overiť, či existuje štatisticky významný rozdiel medzi priemermi dvoch populácií alebo vzoriek.

  • Predpoklady:

    • normal distribution

    • randomly sampled data from population

    • homogénne dáta - variancie medzi dvoma skupinami by mali byť rovnaké

  • Nulová hypotéza: Priemery dvoch populácií sú rovnaké.

  • Možné výsledky:

    • Fail to reject H0 - Priemery dvoch skupín nie sú štatisticky rozdielne (p > 0.05)

    • Reject H0 - Existuje štatisticky významný rozdiel medzi priemermi dvoch skupín (p <= 0.05)

88
New cards

Popíš Analysis of Variance (ANOVA).

  • Testuje, či sa priemery dvoch alebo viacerých skupín významne líšia.

  • Rozkladá variabilitu v dátach na:

    • Between group variability

    • Within group variability

  • Predpoklady:

    • normal distribution

    • independence - Pozorovania v skupinách musia byť nezávislé

    • homogénne dáta - variancie medzi dvoma skupinami by mali byť rovnaké

  • Nulová hypotéza: Priemery všetkých skupín sú rovnaké.

  • Možné výsledky:

    • Fail to Reject H0 - Medziskupinové rozdiely sú zanedbateľné, Skupiny majú rovnaké priemery.

    • Reject H0 - Aspoň jedna skupina má priemer výrazne odlišný od ostatných.

89
New cards

Popíš Mann-Whitney U Test / Wilcoxon rank-sum test.

  • Testuje, či sú rozdelenia dvoch nezávislých vzoriek rovnaké (napr. mediány).

  • Predpoklady:

    • Nezávislé pozorovania - Vzorky musia byť nezávislé od seba.

    • Veľkosť vzorky - Odporúča sa aspoň 20 pozorovaní v každej vzorke (väčšie vzorky zvyšujú štatistickú silu).

  • Nulová hypotéza - Medzi rozdeleniami dvoch vzoriek nie je žiadny rozdiel.

  • Možné výsledky:

    • Fail to Reject H0 - Distribúcie dvoch vzoriek sú rovnaké.

    • Reject H0 - Existuje štatisticky významný rozdiel medzi distribúciami dvoch vzoriek.

90
New cards

Popíš Kruskal-Wallis H Test.

  • Testuje, či rozdelenia viacerých nezávislých vzoriek sú rovnaké.

  • Predpoklady:

    • Nezávislé pozorovania - Vzorky musia byť nezávislé od seba.

    • väčšie vzorky zvyšujú štatistickú silu

  • Nulová hypotéza - Všetky vzorky pochádzajú z rovnakého rozdelenia.

  • Možné výsledky:

    • Fail to Reject H0 - Distribúcie všetkých skupín sú rovnaké.

    • Reject H0 - Aspoň jedna skupina má odlišné rozdelenie.

91
New cards

Ekvivalencie parametrických a neparametrických testov.

Param <=> Neparam

Student’s T-test <=> Mann-Whitney U test

Analysis of Variance <=> Kruskal-Wallis H test

92
New cards

O čom hovorí nulová hypotéza a alternatívne hypotézy?

H0:

  • Vždy predpokladá, že v dátach nie je žiadny vzťah, efekt alebo zmena, a slúži ako základ pre testovanie

Ha:

  • Naopak tvrdí, že v dátach existuje nejaký vzťah, efekt alebo zmena

93
New cards

Vymenuj 4 basic steps of hypothesis testing.

  1. Určenie nulovej a alternatívnej hypotézy

  2. Set a significance level 𝛼 - Hodnota α určuje prah pre rozhodovanie, typicky 0.05 (5 %).

  3. Výpočet p-hodnoty pomocou vhodného testu

  4. Rozhodnutie:

    • Ak p ≤ α => reject H0​ a accept H1​. Výsledok je štatisticky významný.

    • Ak p > α => fail to reject H0​ a reject H1​. Výsledok nie je štatisticky významný.

94
New cards

Čo robiť, ak α nie je preddefinovaná?

  • Typicky sa používa α = 0.05, čo znamená, že ak p-hodnota p ≤ 0.05, výsledok sa považuje za štatisticky významný.

  • Ak neexistuje preddefinovaná hladina významnosti, tak sa takto nastavuje podľa sily podpory:

    • p > 0.10 - not significant

    • p <= 0.10 - marginally significant

    • p <= 0.05 - significant

    • p <= 0.01 - highly significant

95
New cards

Ako sa nazýva bod na osi x, ktorý oddeľuje α od zvyšku rozdelenia?

Critical values

<p><span>Critical values</span></p>
96
New cards

Vymenuj chyby, ktoré môžu nastať pri výsledkoch štatistických testov.

  • Typ I Error (α):

    • Chyba, keď odmietneme nulovú hypotézu, hoci je v skutočnosti pravdivá.

    • Pr. Lekár tvrdí, že pacient je tehotný (pozitívny test), ale pacient v skutočnosti nie je tehotný.

  • Typ II Error (β):

    • Chyba, keď neodmietneme nulovú hypotézu, hoci je v skutočnosti nepravdivá.

    • Pr. Lekár tvrdí, že pacient nie je tehotný (negatívny test), ale pacient je tehotný.

<ul><li><p>Typ I Error (α):</p><ul><li><p>Chyba, keď odmietneme nulovú hypotézu, hoci je v skutočnosti pravdivá.</p></li><li><p>Pr. Lekár tvrdí, že pacient je tehotný (pozitívny test), ale pacient v skutočnosti nie je tehotný.</p></li></ul></li><li><p>Typ II Error (β):</p><ul><li><p>Chyba, keď neodmietneme nulovú hypotézu, hoci je v skutočnosti nepravdivá.</p></li><li><p>Pr. Lekár tvrdí, že pacient nie je tehotný (negatívny test), ale pacient je tehotný.</p></li></ul></li></ul><p></p>
97
New cards

Čo je Degree of freedom (df)?

  • Defines the number of values in a dataset having the freedom to vary.

  • Počet hodnôt v štatistickom výpočte, ktoré sú voľné na variáciu.

  • Počet nezávislých kusov informácií v dátovej vzorke, ktoré môžu byť použité na výpočet štatistiky.

  • Vzťah k veľkosti vzorky: df ≤ n, kde n je veľkosť vzorky.

98
New cards

Aký má Degree of freedom Single Sample Test?

df = N − 1

99
New cards

Aký má Degree of freedom T-test with two samples?

df = (N1​ + N2​) − 2

100
New cards

Aký má Degree of freedom Chi-Square Test?

df = (r − 1) × (c − 1)