statistika - ústní

1.Kombinatorika, náhodné jevy a jejich pravděpodobnost, úvod do R

Kombinatorika – matematická nauka, zabývající se otázkou: „Kolik různých objektů lze vytvořit určitým spojením jiných (dílčích) objektů?“. Kombinatorika (kombinatorická matematika) je část matematiky zabývající se kolekcemi prvků množin s definovanou vnitřní strukturou. Otázky, které kombinatorika řeší, se obvykle týkají počtu nějakých objektů (nebo skupin objektů) s definovanou strukturou, speciálně (pokud počet může být nulový) existencí objektu s definovanou strukturou.

Jev – jakákoliv hmotná či nehmotná skutečnost, která je pozorovaná či vnímaná našimi smysly.

Náhodný jev – jev spjatý s výsledkem náhodného pokusu.

Náhodný pokus – uskutečnění předem definovaného úkonu, jehož výsledek není předem znám (respektive není určen definicí pokusu!).

2.Náhodné veličiny a jejich pravděpodobnostní rozdělení

Veličina – cokoliv, co má velikost, která může být zmenšena, zvětšena a změřena.

Náhodná veličina – veličina, která je spjata s výsledkem náhodného pokusu.

Pravděpodobnostní rozdělení náhodné veličiny – pravidlo, na základě kterého každému (elementárnímu) jevu popisovanému danou veličinou přiřadíme určitou pravděpodobnost. Součet pravděpodobností všech elementárních jevů musí být roven 1.

Bernoulliova věta – relativní četnost výskytu jevu A se s rostoucím počtem pokusů blíží k pravděpodobnosti výskytu jevu A.

Zákon velkých čísel – říká, že ve velikém statistickém souboru se charakteristické vlastnosti statistických jednotek odrážejí lépe, než v souboru malém.

Střední hodnota pravděpodobnostního rozdělení – průměr hodnot, jichž veličina X nabývá, vážený jejich pravděpodobností. Pro náhodný výběr z náhodné veličiny definujeme odhad střední hodnoty jako aritmetický průměr.

Modus – nejpravděpodobnější hodnota rozdělení. Odhadem modusu je nejčetnější hodnota v rámci náhodného výběru.

Medián je „prostřední“ hodnotou daného rozdělení. Odhad mediánu získáme srovnáním hodnot náhodného výběru podle velikosti. Mediánem je potom buď prostřední hodnota (je-li velikost náhodného výběru lichá), nebo aritmetický průměr  dvou prostředních hodnot.

Distribuční funkce („p…“) – funkce rozdělení nebo kumulovaná pravděpodobnost je funkce, která udává pravděpodobnost, že hodnota náhodné proměnné je menší než zadaná hodnota. Kumulativně-distribuční funkce udává pravděpodobnost, že zkoumaná veličina nabyde menší(I VĚTŠÍ), nebo právě takové hodnoty, jako hodnota “x”.

Hustotní funkce („d…“) – Hustotní́ funkce nám říká, jaká je pravděpodobnost (hustota) toho, že zkoumaná proměnná nabyde konkrétní hodnoty “x”.

Kvantilová funkce („q…“). Kvantily tvoří inverzní funkcí k distribuční funkci. Medián lze definovat jako 50% kvantil (tedy "Q50"). To znamená, že 50% hodnot dané veličiny je menší, nebo rovno hodnoty mediánu! Častými typy kvantilů jsou kvartily, decily, percentily. Kvantilová funkce je funkcí inverzní k „p“ funkci. Pro námi zadanou pravděpodobnost nám udává hodnotu „x“, pro níž platí, že se zadanou pravděpodobností nabyde zkoumaná veličina hodnoty „x“, nebo menší.

Rozptyl (či „střední  kvadratická odchylka“) je mírou variability pravděpodobnostního rozdělení náhodné veličiny. Rozptyl = směrodatná odchylka^2

Směrodatná odchylka má funkci „typické variability“ v rámci zkoumané veličiny. Na rozdíl od rozptylu má stejný fyzikální rozměr, jako veličina.

Bernoulliovo schéma: Posloupnost náhodných a nezávislých pokusů, prováděných za stále stejných podmínek, kdy každý pokus má jeden ze dvou (vzájemně se vylučujících) výsledků. Jednomu z výsledků říkáme „úspěch“, druhému „neúspěch“.

Binomické rozdělení („binom“) – počet úspěchů v sérii n nezávislých pokusů s pravděpodobností úspěchu p. Proměnnou lze definovat jako počet úspěchů v sérii „n“ pokusů, z nichž každý může mít jeden ze dvou, vzájemně se vylučujících výsledků („úspěch“/“neúspěch“).

Geometrické rozdělení („geom“) – počet neúspěšných pokusů před prvním „úspěšným“ pokusem. Pokusy jsou definovány shodně, jako u binomického rozdělení.

Negativně binomické rozdělení („nbinom“) – počet neúspěšných pokusů před „n-tým“ (někdy též „s- tým“) úspěšným pokusem. Geometrické rozdělení je specifickým případem negativně binomického rozdělení, s n=1.

3.Náhodné veličiny a jejich pravděpodobnostní rozdělení, testování hypotéz

Eulerovo číslo – iracionální číslo, známé jako „základ přirozených logaritmů“. Jeho hodnota je přibližně 2.718282. Do R lze zadat jako exp(1).

Poissonův proces – bodový proces (prostorový, nebo časový), jenž je výsledkem zcela náhodných událostí. Tedy v případě časového procesu budoucí průběh nezávisí na průběhu minulém. V případě prostorového procesu výskyt události v určitém místě nemá vliv na další události v okolních místech. Důležitý předpoklad: v jednom místě (či okamžiku) nemůže dojít k více, než jedné události! Proměnná s Poissonovým rozdělením může nabývat „celých nezáporných čísel“!

Poissonovo rozdělení („pois“) – lambda. Počet událostí, které nastaly v průběhu určité doby („časový Poissonův proces“), či v určitém prostoru („prostorový Poissonův proces“). Důležité je, že na rozdíl od předchozích rozdělení nemáme žádnou informaci o počtu událostí, které se nestaly.

Spojitá veličina – nabývá všech hodnot v daném (omezeném, či neomezeném) intervalu.

Diskrétní veličina – nabývá hodnot, které lze uspořádat do (konečné, či nekonečné) posloupnosti.

Normální rozdělení („norm“) – parametry normálního rozdělení jsou střední hodnota (reálné číslo, značíme „mí“ - μ) a rozptyl (nezáporné reálné číslo, značíme „sigma“ - 𝜎^2).

Normované normální rozdělení – jedná se o normální rozdělení s nulovou střední hodnotou a jednotkovým rozptylem (a tedy i směrodatnou odchylkou!).

Zákon tři sigma:

·       68% hodnot leží v +/-1σ

·       95% hodnot leží v +/-2σ

·       99.7% hodnot leží v +/-3σ

 

Testování hypotéz:

H0: nic se nezmění, bez efektu, výběry jsou stejné

H1: opak hypotézy nulové

Hypotézu ale nelze nikdy dokázat, pouze zamítnout (spočítat pravděpodobnost, s níž je mylná)! Proto testujeme vždy tzv. NULOVOU hypotézu a snažíme se jí zamítnout! 

·       Při provedení testu získám p-hodnotu. Ta značí pravděpodobnost, že se dopustím chyby I. druhu, zamítnu-li  nulovou hypotézu!

·       P-hodnotu srovnáváme s předem stanovenou hladinou významnosti, která je pro nás „přijatelným rizikem“, že jsme se dopustili chyby I. druhu!

·       Hladinu významnosti značíme „α“ je obvykle nastavena na 5%.

Chyby při testování hypotéz:

·       Chyba prvního druhu: Pravdivá (nulová!) hypotéza je zamítnuta – zdroje: pseudoreplikace, „statistické rybaření“, chybná výpočetní metoda, systematická chyba v průběhu sběru dat,… náhoda

·       Chyba druhého druhu: Neplatná (nulová!) hypotéza není zamítnuta – zdroje: malé vzorky, slabý test,… náhoda. 1-β: Síla testu!

4.Analýza diskrétních dat I

Asymptotické testy – testy, kde používáme statistiku, u které asymptoticky (s vzrostoucím vzorkem) rozdělení bude blížit k tomu, které můžeme definovat. Výhodou je že jsou jednoduché počitatelné (i ručně). Nevýhodou je že lépe funguji ve velkých vzorcích, ne v menších.

 

Chí-kvadrát distribuce (x2 ) – distribuce druhých mocnin k nezávislých proměnných~N(0,1); test statistické hypotézy, jehož testovací kritérium má za předpokladu platnosti nulové hypotézy rozdělení chí kvadrát. Často se chí-kvadrát testy objevují při testování hypotéz o diskrétních rozděleních, kdy se pracuje s četnostmi různých hodnot pozorovaných znaků. k  je jediným parametrem chí-kvadrát distribuce (počet stupňů volnosti).

O = Pozorované (Observed) hodnoty

E = Očekávané (Expected) hodnoty

 

Chí-kvadrát testy:

·       Testy dobré shody

H0: Pravděpodobnostní rozdělení dané (kategoriální/diskrétní) proměnné se shoduje s očekávaným pravděpodobnostním rozdělením

·       Hypotéza nezávislosti v kontingenční tabulce:

H0: Proměnné A a B vzájemně nezávislé proměnné.

 

Užití Chí-kvadrát testu je problematické pro malé velikosti vzorku! Všechny očekávané četnosti by měly být větší, než 5!!!

Počet stupňů volnosti: k=(r-1)*(s-1); df

5.Analýza diskrétních dat II

Stupně volnosti – parametr pro porovnání nějakého testového kritéria pro testování hypotéz s odpovídajícím rozdělením – hodnotou parametru je zpravidla počet současně pozorovaných náhodných veličin, na nichž je testové kritérium založeno, snížený o počet jiných odhadovaných charakteristik. Například u jednovýběrového T testu je počet stupňů volnosti roven počtu pozorování zmenšenému o jedničku, neboť se kromě aritmetického průměru, který je testovým kritériem, zároveň odhaduje i rozptyl.

Exaktní binomický test – přesné testy; jsou založený na tom že spočítají pravděpodobnost každého možného výsledku za platnosti nulové hypotézy a pak srovnají nás výsledek s průměrem. Výhodou je že je přesný i pro malé velikosti vzorků. Nevýhodou je že je výpočetní náročný. (design „Dvě binomické proporce“)

P-hodnotu spočítáme jako sumu pravděpodobností pro všechna k, která jsou od očekávaného počtu (6) odchýlena více, či alespoň tak, jako námi zjištěná hodnota! Pokud P-hodnota je menší, než hladina významnosti (na hladině významnosti α=0.05) tedy můžeme hypotézu proti oboustranné alternativě zamítnout!

Fišerův exaktní test – (design „Dámy pijící čaj“) P-hodnota se skládá ze součtu parciálních pravděpodobností všech tabulek, které se od předpokládaných hodnot odlišují takto, nebo více! Fišerův exaktní test je tedy pro většinu případů příliš slabý, protože uvažuje pouze malé množství potenciálních tabulek

Nepodmíněné exaktní testy – jedná se několik obdob tzv. „Barnardova testu“, na rozdíl od Chí-kvadrát testu si můžeme vybrat, zda chceme zamítat nulovou hypotézu proti jedno- či obou-stranné alternativě! Výpočetně jsou nicméně testy náročné! P-hodnotou je poté suma pravděpodobností všech možných tabulek, které mají hodnotu testovací statistiky extrémnější, než naše tabulka!

„p“ ve vzorci je ovšem neznámým parametrem! Celý postup proto opakujeme se všemi možnými „p“ v intervalu od 0, do 1. Konzervativně poté vybereme nejvyšší (tedy „nejkonzervativnější“) p-hodnotu.

 

Testy o rozptylu a střední hodnotě

Statistické testy dělíme na parametrické a neparametrické testy. Parametrickým testem rozumíme takový test, pro jehož odvození je nutno specifikovat typ rozdělení, případně jeho parametry. Nejčastěji se setkáváme s předpokladem normality dat. Neparametrickým testem rozumíme takový test, pro jehož odvození není nutno specifikovat typ rozdělení, předpokládaná spojitost, menší síla, je vhodný pro malé soubory.

Jednovýběrové testy o rovnosti středních hodnot tedy obecně srovnávají střední hodnotu sledované proměnné (tj. jednoho výběru) s nějakou referenční konstantou.

Test na normalitu dat – Shapiro-Wilkův test („shapiro.test“)

Testy o rovnosti rozptylu:

·       Fischerův F-test („var.test“) – pokud normalita vychází.

·       Fligner-Killeen test („flinger.killer“) – pokud normalita nevychází. Funguje na principu normalizovaného pořadí.

Testy o rovnosti střední hodnoty:

·       Studentův T-test („t.test“) – normalita vychází.

·       Welchův test používáme pro soubory, jejichž pozorování nejsou spárována a nemůžeme u nich předpokládat shodný rozptyl.

·       Wilcoxonův test („wilcox.test“) – normalita nevychází.  Je taky známý jako Mannův-Whitneyův U test. Oproti t testu je slabší a nelze jej realizovat proti jednostranné alternativě. Neparametrický test.

·       Párový t-test lze tedy výpočtem rozdílů hodnot dvou závislých výběrů převést na jednovýběrový. Jeho předpoklady jsou tedy stejné, jako u jednovýběrového t testu, a tedy normální rozdělení výběru. Pozor, výběrem je rozdíl měření v prvním a druhém výběru, takže normální rozdělení má mít právě on.

·       Znaménkový (binomický) test (paired-samples sign test) je velmi jednoduchý neparametrický test s veličinami A a B. V podstatě se jedná o zjednodušený Wilcoxonův test pro dva závislé výběry. Může sloužit i jako náhrada k párovému t-testu. Je vhodné jej použít ve chvíli, kdy sledovanou veličinu nemůžeme přesně měřit, ale kdy můžeme určit, který ze dvou případů spíše nastal (např. větší účinek jedné terapie nad druhou, výskyt proměnné, pravolevost, atd.). Používá se nejčastěji k orientačnímu hodnocení předběžných pokusů.

Korelace

Korelace (z lat. souvztažnost) znamená vzájemný vztah mezi dvěma náhodnými procesy nebo náhodnými veličinami. Pokud se jedna z náhodných veličin mění, mění se i druhá a naopak. Pokud se mezi dvěma náhodnými procesy identifikuje korelace, je pravděpodobné, že na sobě závisejí.

·       Analýza, která srovnává dvě proměnné

·       Zjišťuje, zda jsou závislé – jestli jedna mění hodnoty té druhé

·       Dvě korelované veličiny = hodnoty jedné se díky té druhé zmenšují/zvětšují

·       Když jí testuji tak testuji proti číslu – v mém případě porovnávám střední hodnoty nebo rozptyly

 

Korelační koeficient:

·       0 = dvě proměnné nezávislé (korelace neexistuje)

·       -1 = nepřímá úměra (záporná korelace

·       +1 = přímá úměra (kladná korelace)

Bodový odhad korelace = od -1 do 1

Pearsonův test

-          Nejsilnější korelační test

-          Předpoklady: normální rozdělení každé proměnné

-          Mají dvourozměrné normální

Spearmanův test

-          Jestliže neplatí normální rozdělení

-          Pořadový test

 

Síla testu

Síla testu je číslo mezi 0 a 1, které udává pravděpodobnost, že při neplatnosti nulové hypotézy dojde k jejímu zamítnutí, tedy pravděpodobnost odhalení neplatnosti nulové hypotézy. Platí, že čím vyšší je síla testu, tím lépe.

·       1-β

·       β: Pravděpodobnost chyby druhého druhu (tedy pravděpodobnost, že nebudu schopen zamítnout nepravdivou nulovou hypotézu)

Na čem síla testu závisí:

·       Velikost efektu

·       Velikost vzorku

·       Použitá metoda

·       Hladina významnosti

 

Typy testů:

·       pwr.t.test – pro t.testy

·       pwr.r.test – pro korelace

·       simulační postup – pokud normalita nevychází

Procento „falešně pozitivních“ studií roste s klesající sílou testu (menší vzorky) s rostoucí „nepravděpodobností“ testovaných hypotéz!

Řešení:

·       Dostatečné velikosti vzorku

·       Publikování bez ohledu na signifikanci!

·       Replikace již provedených studií!

 

Během zkoušky hodně se ptají na příklady!!!! Uveďte příklad náhodné veličiny, náhodného pokusu, korelace, chí-kvadrát test atd. Jaký je rozdíl mezi kombinatorikou a chí-kvadrátem. Kdy používáme t-testy, jak se počítá rozptyl a proč je jako číslo na druhou. Na definice se taky hodně ptají, a na předpoklady a parametry různých testů. Taky se ptají na různé grafy, co bude na ose x a y, jaké parametry, jak bude vypadat graf v různých příkladech. Taky na papíru byly napsány různá čísla a bylo nutně najít medián (musíme uspořádat podle velikosti a pak to bude prostřední hodnota nebo aritmetický průměr dvou prostředních hodnot). Často jejich otázkám prostě nerozumíš a nevíš, co konkrétně chtějí uslyšet. Hodně štěstí

robot