Stat nice

0.0(0)
studied byStudied by 0 people
GameKnowt Play
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/60

encourage image

There's no tags or description

Looks like no tags are added yet.

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

61 Terms

1
New cards

Zákon rozdělení náhodné veličiny

říká, že každé hodnotě nebo množině hodnot z každého intervalu přiřazuje pravděpodobnost, že náhodná veličina nabude této hodnoty z určitého intervalu

2
New cards

hustota pravděpodobnosti se spočte jako

derivace distribicni funkce

3
New cards

jak vypadaji centralni momenrty

knowt flashcard image
4
New cards

Rozptyl - jaky je to moment a jak vypocitat

druhy centralni moment + obrazek

<p>druhy centralni moment + obrazek</p>
5
New cards

kovariance

knowt flashcard image
6
New cards

Konvergence podle pravděpodobnosti k náhodné veličině

knowt flashcard image
7
New cards

Konvergence podle pravděpodobnosti ke konstatntě a

knowt flashcard image
8
New cards

Čebyševova nerovnost I. typu

knowt flashcard image
9
New cards

Čebyševova nerovnost II. typu

knowt flashcard image
10
New cards

Zákon velkých čísel

  • jestliže zvětšujeme počet náhodných pokusů, přibližuje se empirická charakteristika, popisující výsledky těchto pokusů, charakteristice teoretické

  • musíme si uvědomit, že přibližování empirických hodnot k teoretickým nemá charakter matematické konvergence, ale konvergence pravděpodobnostní. Pravděpodobnostní konvergencí rozumíme skutečnost, že při vzrůstajícím počtu pokusů se pravděpodobnost větších odchylek empirických hodnot od teoretických stále zmenšuje

  • Bernoulliho veta/Čebyševova věta

11
New cards

Bernoulliho věta

  • Bernoulliho věta říká, že relativní četnost sledovaného jevu stochasticky konverguje k jeho pravděpodobnosti, význam této věty spočívá v možnosti experimentálně odhadovat neznámou pravděpodobnost pomocí napozorované relativní četnosti

<ul><li><p><span style="font-family: Calibri, sans-serif;"><strong>Bernoulliho věta říká, že relativní četnost sledovaného jevu stochasticky konverguje k&nbsp;jeho pravděpodobnosti</strong>, význam této věty spočívá v&nbsp;možnosti experimentálně odhadovat neznámou pravděpodobnost pomocí napozorované relativní četnosti</span></p></li></ul><p></p>
12
New cards

Čebyševova věta

knowt flashcard image
13
New cards

silny zakon velkých cisel

knowt flashcard image
14
New cards

Centrální limitní věta

  • říká, že součet nebo průměr velkého počtu nezávislých náhodných veličin se přibližuje k normálnímu rozdělení, bez ohledu na původní rozdělení jednotlivých veličin.

  • Moivre-Laplace/Linderberg-Lévy

<ul><li><p>říká, že součet nebo průměr velkého počtu nezávislých náhodných veličin se přibližuje k normálnímu rozdělení, bez ohledu na původní rozdělení jednotlivých veličin.</p></li><li><p>Moivre-Laplace/Linderberg-Lévy</p></li></ul><p></p>
15
New cards

Moivre-Laplace věta

  • Speciální případ CLT pro binomické rozdělení

  • umožňuje převést diskrétní binomické pravděpodobnosti na spojité normální rozdělení.

  • Velké binomické experimenty (např. 100 a více hodů) lze snadno analyzovat bez nutnosti počítat složité binomické koeficienty.

16
New cards

Lindenberg-levy

  • Obecná verze centrální limitní věty (CLT) pro i.i.d. veličiny náhodnou veličinou X je v tomto případě součet n nezávislých náhodných veličin, které mají libovolný identický zákon rozdělení s konečnou střední hodnotou E(Xi) = µ a konečným rozptylem D(Xi) = σ2, i =1,2,3,…,n

  • podle této věty má pro dosti velké n přibližně normální rozdělení i součet a průměr n nezávislých náhodných veličin, které mají stejné (libovolné) rozdělení s konečnou střední hodnotou a konečným rozptylem

17
New cards

fisherova informace a ramerova craova nerovnost

knowt flashcard image
18
New cards

Trimean

počítá vážený aritmetický průměr kvartilů, mediánu dává váhu 0,5 a kvartilům váhu 0,25.

trimean = 0,25*dolní kvartil + 0,5*medián + 0,25* horní kvartil

19
New cards

Windsorizovaný průměr

se používá tehdy, pokud soubor obsahuje extrémní hodnoty, ale jde o soubor malého rozsahu, kdy useknutí značným způsobem snižuje rozsah souboru. Při výpočtu windsorizovaného průměru v uspořádaném výběru nejprve nahradíme předem zvolený počet nejmenších hodnot ve výběru hodnotou následující a stejný počet největších hodnot nejbližší předcházející hodnotou. V takto upraveném výběru pak určíme aritmetický průměr

20
New cards

Useknutý průměr

aritmetický průměr uspořádaného výběru po vynechání zvoleného počtu (k) nejmenších a největších pozorování. Nevýhodu je, že o část pozorování přijdu (není zachován výběr o rozsahu n).

21
New cards

MAD

MAD představuje míru variability, která je jenom málo ovlivněna extrémními hodnotami (medián je méně citlivý na odlehlé hodnoty než aritmetický průměr).

<p class="MsoNormal"></p><p class="MsoNormal"><span>MAD představuje míru variability, která je jenom málo ovlivněna extrémními hodnotami (medián je méně citlivý na odlehlé hodnoty než aritmetický průměr).</span></p><p class="MsoNormal"></p>
22
New cards

Giniho koeficient

je charakteristikou nerovnoměrnosti (rozptýlenosti). Jde o průměrnou vzdálenost mezi 2 pozorováními. Giniho koeficient nabývá hodnot od 0 do 1.

23
New cards

VARIAČNÍ KOEFICIENT

Relativní mira variability = s/průměr x

24
New cards

Glivenkova věta

  • Glivenko–Cantelliho věta poskytuje teoretický základ pro uniformní konvergenci odhadů distribuční funkce, na kterou KDE navazuje.

  • Díky tomu lze používat jádrové odhady hustoty jako konzistentní odhady hustoty a distribuční funkce.

  • Prakticky: pro velký vzorek f^n(x)\hat{f}_n(x)f^​n​(x) i integrovaná F^n(x)\hat{F}_n(x)F^n​(x) jsou velmi blízko skutečné f(x)f(x)f(x) a F(x)F(x)F(x).

25
New cards

Kolmogorov smirnov test

1 výběr: H0: dle EDF říkáme, že F(x) = F(x)’

  • test kritérium: vzdálenost těchto funkcí

2 výběry: H0: F1(x) = F2(x)

  • test kritérium: vzdálenost mezi nimi

26
New cards

Test dobré schody

  • shody četností(kategoriální data)/shody rozdělení četností(kvantitativní data)

  • porovnání F(x) výběru a normálně rozdělené F(x)

  • Chí kvadrát test dobré schody

    • posouzení rozdílu mezi empirickými četnostmi výskytu hodnot a očekávanými četnostmi odpovídajícímu danému rozdělení(Normálnímu)

    • H0: NV má normální rozdělení

27
New cards

slaba sada predpokladu

nulovy prumer, konstatntni rozptyl a nekorelovanost

pokud je splnuje chybova slozka, pak odhady MNČ=odhadny ML

28
New cards

Analyza rozptylu (vzprce + cista chyba a nedostatek shody )

knowt flashcard image
29
New cards

Identifikac eodlehlých pozorobání

diagonální prvky matice h, normované rezidua, vnitřně/vnějšně studentizovaná rezidua

30
New cards

identifikace vlivných pozorování

cookova vzdalenost

<p>cookova vzdalenost</p>
31
New cards

Bartlettův test

  • nekonstruktivní testy heteroskedasticity

<ul><li><p>nekonstruktivní testy heteroskedasticity</p></li><li><p></p></li></ul><p></p>
32
New cards

Leveneův test a Brown-Forsythův test

  • nekonstruktivní testy heteroskedasticity

<ul><li><p>nekonstruktivní testy heteroskedasticity</p></li></ul><p></p>
33
New cards

Goldfeld-Quandtův test

knowt flashcard image
34
New cards

gLEJSRŮV TEST

knowt flashcard image
35
New cards

Důsledky heteoskedasticity

  • Pro malý počet pozorování – odhad zůstává nestranný, ale není vydatný

  • Pro velký počet pozorování – odhad je asymptoticky nestranný a konzistentní, ale není asymptoticky vydatný

  • IS a testovací hypotézy ztrácí na síle → doporučuje se použít jinou metodu než MNČ, a to ZMNČ (zobecněnou MNČ)

36
New cards

White TEST

knowt flashcard image
37
New cards

BP test

knowt flashcard image
38
New cards

ARCH test

knowt flashcard image
39
New cards

ljung box test

knowt flashcard image
40
New cards

Breutsch-Godrey test

knowt flashcard image
41
New cards

špatná specifikace modelu

  • vynechání proměnné

    • odhady koeficientu vychyleny (unless by byly promenne totalne nezavisle)

    • rozptyl nižší než by měl být

  • zahrnutí proměnné

    • odhady nejsou vydatné (rozptyly větší) - > rozšířené IS

    • mulitkolinearita

  • Šparný typ fce

42
New cards

RESET

Regression specification error test

<p>Regression specification error test</p><ul><li><p></p></li></ul><p></p>
43
New cards

interval vs pomer veůicina

Intervalová veličina:

  • Je charakterizována tím, že mezi jednotlivými hodnotami existuje konstantní rozdíl, ale nulový bod je pouze arbitrární (určený dohodou).

  • Příklady: teplota ve stupních Celsia, rok narození.

  • Nulový bod (např. 0 °C) neznamená absenci tepla. Rozdíl mezi 20 °C a 30 °C je stejný jako rozdíl mezi 10 °C a 20 °C, ale nelze říci, že 20 °C je dvakrát tak teplé jako 10 °C. 

Poměrová veličina:

  • Má nulový bod, který skutečně znamená "nic".

  • Příklady: výška, váha, věk, počet dětí v rodině, měsíční příjem.

  • Pokud má někdo výšku 180 cm a jiný 90 cm, lze říci, že první je dvakrát tak vysoký. Nula centimetrů znamená absenci výšky. 

44
New cards

Simultánní IS - Hotelling vs Bonferroni

·        Jsme-li předem rozhodnuti zaměřit se na jednu složku vektoru µ => individuální IS

·        Jsme-li předem rozhodnuti zaměřit se na několik složek, popřípadě všechny složky => Bonferr. simul. IS

·        Počítáme-li s určitým pátráním v datech, takže nejsme předem zaměření na daný počet lineárních kombinací složek vektoru µ → simultánní IS T2

45
New cards

Testování vektorů středních hodnot - 2nezávislé výběry

 Neznámé kovarianční matice jsou shodné

  • mu1-mu2=0

  • pro srovnání vektorů použijeme hottelinga nebo bonferroniho intervaly

Nestejné kovarianční matice

  • mu1-mu2=0

  • Scheffuv test

46
New cards

Testování vektorů středních hodnot - 2 závislé výběry

jedna proměnná

  • párové rozdíly, H0: muD = 0

vÍCE PRoměnných

  • to samé, ale s maticí

  • při zamítnutí můžeme koukat na důvod úřes bonferroniho IS

47
New cards

mallowsova statistika

knowt flashcard image
48
New cards

cista chyba a nedosztatelk shody

1. Čistá chyba (pure error)

  • Vzniká, když máme opakovaná pozorování pro stejné hodnoty vysvětlujících proměnných.

  • Měří náhodný rozptyl dat, který by existoval i při perfektním modelu.

  • Čistá chyba = variabilita uvnitř replikací (mezi pozorováními se stejným xxx).

  • Nezávislá na volbě modelu.


2. Nedostatek shody (lack of fit)

  • Vzniká, když zvolený regresní model není dostatečně flexibilní k popisu vztahu mezi yyy a xxx.

  • Měří odchylku mezi průměry pozorovaných hodnot pro stejné xxx a hodnotami předpovězenými modelem.

  • Ukazuje, zda model správně vystihuje tvar závislosti.

<p><strong>1. Čistá chyba (pure error)</strong> </p><ul><li><p>Vzniká, když máme <strong>opakovaná pozorování</strong> pro stejné hodnoty vysvětlujících proměnných.</p></li><li><p>Měří <strong>náhodný rozptyl dat</strong>, který by existoval i při perfektním modelu.</p></li><li><p>Čistá chyba = variabilita <strong>uvnitř replikací</strong> (mezi pozorováními se stejným xxx).</p></li><li><p>Nezávislá na volbě modelu.</p></li></ul><p> </p><div data-type="horizontalRule"><hr></div><p> <strong>2. Nedostatek shody (lack of fit)</strong> </p><ul><li><p>Vzniká, když zvolený regresní model není dostatečně flexibilní k popisu vztahu mezi yyy a xxx.</p></li><li><p>Měří <strong>odchylku mezi průměry pozorovaných hodnot pro stejné xxx a hodnotami předpovězenými modelem</strong>.</p></li><li><p>Ukazuje, zda model správně vystihuje tvar závislosti.</p></li></ul><p></p>
49
New cards

jednofaktorova anova vicefaktrova anova jednofaktorova manova vicefaktorova manova

  • V ANOVA: H0H_0H0​ = rovnost skalárních průměrů.

  • V MANOVA: H0H_0H0​ = rovnost vektorů průměrů (tedy všech závislých proměnných současně).

<ul><li><p>V <strong>ANOVA</strong>: H0H_0H0​ = rovnost <strong>skalárních průměrů</strong>.</p></li><li><p>V <strong>MANOVA</strong>: H0H_0H0​ = rovnost <strong>vektorů průměrů</strong> (tedy všech závislých proměnných současně).</p></li></ul><p></p>
50
New cards

jaka TEST statistika je pro anova/manova

51
New cards

pevne vs nahodne efekty v anove/manove

knowt flashcard image
52
New cards

Typy součtu čtverců v GLM

knowt flashcard image
53
New cards

pca vs fa

·        PCA:

§  výhodnější vycházet z analýzy kovarianční matice, pokud mají proměnné stejné měřící jednotky a relativně podobnú variabilitu

§  hledá komponenty, které vysvětlují variabilitu a závislost uvažovaných proměnných

·        FA:

§  výhodnější vycházet z analýzy korelační matice

§  hledá faktory, které vysvětlují variabilitu a závislost uvažovaných proměnných

54
New cards

komponentni skore

Reprezentuje položení jednotlivých pozorování v prostoru hlavních komponent.

55
New cards

Vektory komponentních zátěží (loadings)

  • Udávají váhy původních proměnných v jednotlivých komponentách.

  • Jsou to vlastních vektory viv_ivi​ matice kovariancí/korelační matice.

  • Rozměr: p×pp \times pp×p (počet proměnných × počet komponent).

  • Slouží k interpretaci, které proměnné nejvíce přispívají k dané komponentě.

56
New cards

Bartlettův test sfericity v PCA

  • diagnostika vhodnosti dat pro PCA.

  • H0​:Korelacˇnıˊ matice je jednotkovaˊ (identickaˊ)

  • H1​:existujıˊ korelace mezi promeˇnnyˊ​mi

57
New cards

kmo

kaiser-eyer-olkin

  • Hodnotí míru korelace mezi proměnnými relativně k jejich parciálním korelacím.

  • Zjednodušeně: měří, zda jsou korelace mezi proměnnými dostatečně silné, aby byla PCA/faktorová analýza smysluplná.

  • vysoké kmo → pca/fa

<p>kaiser-eyer-olkin</p><ul><li><p>Hodnotí <strong>míru korelace mezi proměnnými</strong> relativně k jejich parciálním korelacím.</p></li><li><p>Zjednodušeně: měří, zda jsou korelace mezi proměnnými dostatečně silné, aby byla PCA/faktorová analýza smysluplná.</p></li><li><p>vysoké kmo → pca/fa</p></li><li><p></p></li></ul><p></p>
58
New cards

komuniality v pca

komunality (communality) ukazatelem toho, kolik variability původní proměnné je vysvětleno vybranými hlavními komponentami.

59
New cards

Faktorská analýza – metoda hlavních faktorů

  • Odlišuje se od PCA tím, že se soustředí jen na společnou (komunalitní) složku variability, nikoli celkovou variabilitu.

<ul><li><p>Odlišuje se od PCA tím, že se <strong>soustředí jen na společnou (komunalitní) složku variability</strong>, nikoli celkovou variabilitu.</p></li><li><p></p></li></ul><p></p>
60
New cards

Rotace ve faktorce

1. Cíl rotace

  • Získat interpretovatelnější faktorovou strukturu.

  • Minimalizovat počet významných zátěží na jednom faktoru a maximalizovat jasnost přiřazení proměnných k faktorům.


2. Typy rotací a) Ortogonální rotace

  • Faktory zůstávají navzájem kolmé (nekorelované).

  • Nejčastější metody:

    • Varimax – maximalizuje rozptyl čtverců faktorových zátěží, snaží se, aby každá proměnná měla jednu dominantní zátěž.

    • Quartimax – zjednodušuje strukturu pro proměnné (méně faktorů s vysokými zátěžemi).

    • Equamax – kombinace Varimax a Quartimax.

b) Šikmé (oblique) rotace

  • Faktory mohou být korrelované.

  • Metody: Promax, Oblimin.

  • Používá se, pokud existuje teoretické očekávání, že latentní faktory jsou vzájemně propojené.

61
New cards

Průběh faktorky

1. Příprava dat

  • Data: matice XXX (n × p), n pozorování, p proměnných.

  • Volitelná standardizace:

    • Nutná, pokud proměnné mají různé jednotky.

2. Výpočet korelační matice

  • Faktorka se obvykle provádí na korelační matici RRR, protože:

    • Eliminujeme problém odlišných jednotek.

    • Získáme měřítkově nezávislé výsledky.

  • Alternativně lze použít kovarianční matici, pokud všechny proměnné jsou ve stejné jednotce.

3. Odhad společné variance (communalities)

  • Na začátku se často nastaví:

    hi2=1(pro PCA-based start)h_i^2 = 1 \quad \text{(pro PCA-based start)}hi2​=1(pro PCA-based start)

    • Každá proměnná je považována za zcela společnou.

  • Můžeme také použít menší hodnoty (např. extrahovat první hlavní komponentu a použít její varianci).

4. Eigen-decomposition

  • Rozklad korelační matice RRR (s odhadem společných variancí):

    R=VΛVTR = V \Lambda V^TR=VΛVT

    • Λ\LambdaΛ – vlastní čísla (eigenvalues)

    • VVV – vlastní vektory (loadings)

  • Počet faktorů mmm určuje:

    • Eigenvalues > 1 (Kaiserovo kritérium)

    • Scree plot (zlom v křivce)

    • % vysvětlené variance

5. Výpočet faktorových zátěží (factor loadings)

  • Zátěže LLL jsou odvozeny z vlastních čísel a vektorů:

    L=VmΛm1/2L = V_m \Lambda_m^{1/2}L=Vm​Λm1/2​

    • VmV_mVm​ – vlastní vektory vybraných mmm faktorů

    • Λm\Lambda_mΛm​ – odpovídající vlastní čísla

  • Faktorové zátěže ukazují vztah mezi proměnnou a faktorem.

6. Iterativní odhad společných variancí (volitelné)

  • Pokud se používá principal factor method (ne čisté PCA):

    1. Začneme s počátečními komunalitami hi2h_i^2hi2​

    2. Extrahujeme faktory

    3. Aktualizujeme komunality:

      hi2=∑j=1mLij2h_i^2 = \sum_{j=1}^{m} L_{ij}^2hi2​=j=1∑m​Lij2​

    4. Iterujeme, dokud se komunality nezmění významně

7. Výpočet faktorových skóre

  • Faktorové skóre pro jednotlivá pozorování F=Z⋅WF = Z \cdot WF=Z⋅W, kde WWW je váhová matice odvozená z LLL

  • skóre ukazuje, jak jednotlivá pozorování „leží“ na faktorech

8. Rotace faktorů (volitelné)

  • Pro lepší interpretaci:

    • Ortogonální rotace: varimax, quartimax

    • Šikmá rotace: oblimin, pro korelované faktory

  • Rotace maximalizuje vysoké zátěže a minimalizuje nízké, čímž faktory lépe odpovídají proměnným

9. Interpretace

  • Factor loadings → co jednotlivé faktory reprezentují

  • Communalities → kolik variance každé proměnné je vysvětleno faktory

  • Factor scores → umístění jednotlivých pozorování v prostoru faktorů