Statistika - pojmy ke zkoušce

studied byStudied by 211 people
5.0(1)
learn
LearnA personalized and smart learning plan
exam
Practice TestTake a test on your terms and definitions
spaced repetition
Spaced RepetitionScientifically backed study method
heart puzzle
Matching GameHow quick can you match all your cards?
flashcards
FlashcardsStudy terms and definitions

1 / 64

flashcard set

Earn XP

Description and Tags

Statistics

65 Terms

1

náhodný pokus

realizace určitého systému podmínek, které vedou k nějakému předem neznámému výsledku

cokoli, co uděláme a nemáme ambice to počítat

New cards
2

náhodný jev

to, v co vyústí náhodný pokus

(př. narození dítěte a zjištění, zda je to chlapec nebo dívka)

New cards
3

neslučitelné jevy

(disjunktní)

jevy, které nemohou nastat současně

(všechny elementární jevy)

New cards
4

pravděpodobnost

fce, která náhodným jevům připisuje čísla z intervalu [0;1]

New cards
5

klasická pravděpodobnost

využívá se tam, kde náhodný pokus vede ke konečnému množství výsledků, z nichž jsou všechny stejně možné

(Pω1=Pω2=Pω3=Pω4=…Pωn=1/n)

P(A) = všechny příznivé výsledky/všechny možné výsledky

New cards
6

geometrická pravděpodobnost

pokud elementární jevy nastávají se stejnou pravděpodobností, ale je jich nekonečně mnoho

obě množiny, jejichž prvky srovnáváme, si představíme jako geometrické útvary => stanovujeme jejich míru (míra = délka, obsah, objem…)

P(A) = míra (A)/míra (Ω)

New cards
7

náhodná veličina

fce, připisující každému myslitelnému výsledku náhodného pokusu nějaké číslo

spojení mezi skutečností a čísly

pokud s náhodnou veličinou provedeme jakoukoli matematickou operaci, výsledkem je opět náhodná veličina

př. náhodná veličina výška a váha => náhodná veličina BMI

New cards
8

rozdělení pravděpodobnosti

stejné jako pravděpodobnost (mat. fce), ale její definiční obor množiny čísel, ne množiny elementárních jevů

př. Px ({1, 2, 3})=0,5

(jaká je pravděpodobnost …?)

př. Px ([140;150])=? => Jaká je pravděpodobnost, že je dítě vysoké od 140 cm do 150 cm?

New cards
9

distribuční funkce

př. Px((-;150])=? => Jaká je pravděpodobnost, že bude dítě menší než 150 cm?

Px ((-; x]) = Fx = distribuční fce

FX(x) = jaká je pravděpodobnost, že se náhodná veličina X bude realizovat s hodnotou menší nebo rovnou libovolně zvolenému reálnému číslu x

((FX(x) = F, dolní index velké X, v závorce malé x))

New cards
10

vlastnosti distribuční fce

  • není klesající => je rostoucí

  • y nastoupá na 1

  • na začátku je vždy 0 (nemusí být na x, ale na y je vždy)

New cards
11

spojitá náhodná veličina

má hladký průběh bez skoků

př. výška - může být 170,000, ale i 170,001, 170,0011 atd.

New cards
12

diskrétní náhodná veličina

graf vypadá jako schodiště

v některých bodech neroste a je konstantní - př. hod šestistěnnou kostkou => můžu hodit jen 1 nebo 2 nebo 3 atd. => nemůžu hodit 1,5 => v téhle hodnotě je pravděpodobnost 0

New cards
13

střední hodnota

E(X) = jakou hodnotu v průměru má realizace náhodné veličiny X

(může být + i -)

u diskrétních náhodných veličin se dá jednoduše spočítat - vynásobíme všechny hodnoty jejich pravděpodobnostmi a sečteme je - př. pohlaví => žena = 1 a muž = 2, obě mají pravděpodobnost 0,5 => 1×0,5 + 2×0,5 = 1,5

operace:
E(X + a) = E(X) + a
E(bX) = bE(X)
E(a + bX) = a + bE(X)
E(aX + bY + c) = aE(X) + bE(Y) + c

New cards
14

rozptyl (variance)

VAR(X) = jak jsou realizace rozmanité okolo střední hodnoty (jestli jsou těsně kolem toho nebo hooodně rozprostřené do stran)

(od 0 do + => kladná čísla)

vysoký rozptyl => rozmanité hodnoty
nízký rozptyl => hodnoty těsněji u sebe

operace:
VAR(X + a) = VAR(X)
VAR(bX) = b²VAR(X)
VAR(a + bX) = b²VAR(X)

√VAR(X) = směrodatná odchylka

New cards
15

směrodatná odchylka

odmocnina z rozptylu (√VAR(X))

New cards
16

kovariance

COV(X, Y) = jak kolísání jedné náhodné veličiny (X) ovlivňuje kolísání druhé náhodné veličiny (Y)

statistický vztah, mění se pravděpodobnost jedné veličiny podle té druhé

COV (X, Y) = + => roste X, roste Y => kladný vztah
COV (X, Y) = - => roste X, klesá Y => záporný vztah
(( roste X, roste Y => vysoké hodnoty X vedou ke zvýšení pravděpodobnosti vysokých hodnot Y)
(př. inteligence a vzdělání => kladná kovariance)

New cards
17

korelační koeficient

pokud COV (X, Y) vydělíme směrodatnými odchylkami obou náhodných veličin => korelační koeficient (COR (X, Y))

hodnoty od -1 do +1

New cards
18

nezávislost náhodných veličin

hodnota jedné náhodné veličiny nesouvisí s hodnotou druhé náhodné veličiny => COV = 0

NULOVÁ COV NEZNAMENÁ NEZÁVISLOST! (je nelineární; př. rychlost řeči vyučujícího a objem odnesených informací => není to lineární => nulová COV)

pro nezávislé veličiny platí:
VAR(X + Y) = VAR(X) + VAR(Y)
E(XY ) = E(X)E(Y )

New cards
19

kvantil náhodné veličiny (alfa-kvantil)

opak distribuční fce

“Jakou hodnotu x bychom museli zvolit, aby v ní fční hodnota distribuční fce dosahovala nějaké námi stanovené pravděpodobnosti α” => α-kvantil (xα)

dáme pravděpodobnost => dá nám číslo (α=P)

stanovím α => xα = takové číslo, pro které platí, že se náhodná veličina realizuje v něm nebo v libovolné menší hodnotě s pravděpodobností α

př. jaké IQ musím mít, abych měla víc než 99 %

<p>opak distribuční fce</p><p>“Jakou hodnotu x bychom museli zvolit, aby v ní fční hodnota distribuční fce dosahovala nějaké námi stanovené pravděpodobnosti α” =&gt; α-kvantil (xα)</p><p>dáme pravděpodobnost =&gt; dá nám číslo (α=P)</p><p>stanovím α =&gt; xα = takové číslo, pro které platí, že se náhodná veličina realizuje v něm nebo v libovolné menší hodnotě s pravděpodobností α</p><p>př. jaké IQ musím mít, abych měla víc než 99 %</p>
New cards
20

pravděpodobnostní funkce

pravděpodobnost toho, že náhodná veličina X se realizuje v hodnotě x = pX(x) (pX(x) = P (X=x))

pro diskrétní náhodné veličiny

přesně odpovídá výšce jednotlivých schodů distribuční fce diskrétní náhodné veličiny

pro spojité náhodné veličiny nemá smysl => P, že bude přesně takovéhle x, je nulová

<p>pravděpodobnost toho, že náhodná veličina X se realizuje v hodnotě x = p<sub>X</sub>(x) (p<sub>X</sub>(x) = P (X=x))</p><p>pro diskrétní náhodné veličiny</p><p>přesně odpovídá výšce jednotlivých schodů distribuční fce diskrétní náhodné veličiny</p><p></p><p>pro spojité náhodné veličiny nemá smysl =&gt; P, že bude přesně takovéhle x, je nulová</p>
New cards
21

hustota pravděpodobnosti

vlastnosti: je to kopec, který jde od 0 do 1 a pak znovu do 0; obsah tvaru je 1 (100 %)

značí se: fx(x) ((první x je dolní index))

New cards
22

alternativní rozdělení

X ∼ Alt(p) => tato náhodná veličina má pouze 2 možné výsledky (0 nebo 1)
p = pravděpodobnost, že bude výsledek 1 (př. p=0,3 => 1 se objevuje s 30% pravděpodobností)

diskrétní rozdělení

E(X) = p
VAR(X) = p*(1-p)

New cards
23

binomické rozdělení

X ∼ Bi(n, p)

součet n náhodných veličin, které mají každá pravděpodobnost p (že dostaneme 1 a ne 0) ((každá má alternativní rozdělení se stejnou p)
jednotlivé náhodné veličiny musí být NEZÁVISLÉ!

př. 10x hodím kostkou, jaká je P, že přesně 3x padne šestka?

<p>X ∼ Bi(n, p)</p><p>součet n náhodných veličin, které mají každá pravděpodobnost p (že dostaneme 1 a ne 0) ((každá má alternativní rozdělení se stejnou p)<br>jednotlivé náhodné veličiny musí být NEZÁVISLÉ!</p><p>př. 10x hodím kostkou, jaká je P, že přesně 3x padne šestka?</p><p></p>
New cards
24

Poissonovo rozdělení

binomické rozdělení, kdy p je mega málo (blíží se nule) a n je mega moc (blíží se nekonečnu)

(krajní případ binomického rozdělení)

np = λ

má jediný parametr => λ => Po(λ)

u binomického rozdělení je n omezené, u Poissonova rozdělení je n neomezené

př. počet hvězd, které uvidíme, když se podíváme dalekohledem (hvězd je nekonečno, ale pravděpodobnost, že uvidíme zrovna tu jednu z nich, je zanedbatelná)

<p>binomické rozdělení, kdy p je mega málo (blíží se nule) a n je mega moc (blíží se nekonečnu)</p><p>(krajní případ binomického rozdělení)</p><p>np = λ</p><p>má jediný parametr =&gt; λ  =&gt; Po(λ)</p><p>u binomického rozdělení je n omezené, u Poissonova rozdělení je n neomezené</p><p></p><p>př. počet hvězd, které uvidíme, když se podíváme dalekohledem (hvězd je nekonečno, ale pravděpodobnost, že uvidíme zrovna tu jednu z nich, je zanedbatelná)</p>
New cards
25

rovnoměrné rozdělení

X ∼ Ro (a, b) nebo (U (a, b))

a, b = parametry => a < b

př. délka čekání na tramvaj, když v náhodný čas přijdeme na zastávku, kde v pravidelných intervalech jezdí tramvaj

<p>X ∼ Ro (a, b) nebo (U (a, b))</p><p>a, b = parametry =&gt; a &lt; b</p><p>př. délka čekání na tramvaj, když v náhodný čas přijdeme na zastávku, kde v pravidelných intervalech jezdí tramvaj</p><p></p>
New cards
26

normální rozdělení

(Gaussovo rozdělení)

X ∼ N(μ, σ²)

vzniká tehdy, když sledovaná náhodná veličina představuje součet velkého množství nezávislých náhodných veličin s podobně velkými rozptyly

v přírodě velmi časté - př. tělesná výška lidí

má dva parametry: μ (střední hodnota) a σ2 (rozptyl)

vlastnosti:
1. součet dvou náhodných veličin s normálním rozdělením vytvoří náhodnou veličinu s normálním rozdělením
2. pokud k náhodné veličině s normálním rozdělením něco přičteme/odečteme/vynásobíme/vydělíme ji (nenulovým číslem) => vzniklá náhodná veličina má opět normální rozdělení

(neexistuje nenormální)

<p>(Gaussovo rozdělení)</p><p>X ∼ N(μ, σ²)</p><p>vzniká tehdy, když sledovaná náhodná veličina představuje součet velkého množství nezávislých náhodných veličin s podobně velkými rozptyly</p><p>v přírodě velmi časté - př. tělesná výška lidí</p><p>má dva parametry: μ (střední hodnota) a σ<sup>2</sup> (rozptyl)</p><p>vlastnosti:<br>1. součet dvou náhodných veličin s normálním rozdělením vytvoří náhodnou veličinu s normálním rozdělením<br>2. pokud k náhodné veličině s normálním rozdělením něco přičteme/odečteme/vynásobíme/vydělíme ji (nenulovým číslem) =&gt; vzniklá náhodná veličina má opět normální rozdělení</p><p>(neexistuje nenormální)</p>
New cards
27

normované normální rozdělení

speciální případ normálního rozdělení - střední hodnota je 0 a rozptyl je 1

X ∼ N (0, 1)

hustota pravděpodobnosti norm. normál. rozdělení je symetrická okolo 0 => většina toho se organizuje od -3 do 3

převod normálního rozdělení na normované normální rozdělení:
X∼ N(μ, σ²) => Z ∼ N(0, 1)
Z = (X − μ)/σ

<p>speciální případ normálního rozdělení - střední hodnota je 0 a rozptyl je 1</p><p>X ∼ N (0, 1)</p><p>hustota pravděpodobnosti norm. normál. rozdělení je symetrická okolo 0 =&gt; většina toho se organizuje od -3 do 3</p><p>převod normálního rozdělení na normované normální rozdělení:<br>X∼ N(μ, σ<strong>²</strong>) =&gt; Z ∼ N(0, 1)<br>Z = (X − μ)/σ</p>
New cards
28

centrální limitní teorém

součet velkého množství nezávislých náhodných veličin s podobnými rozptyly bude čím dál víc připomínat normální rozdělení, čím víc jich bude

<p>součet velkého množství nezávislých náhodných veličin  s podobnými rozptyly bude čím dál víc připomínat normální rozdělení, čím víc jich bude</p>
New cards
29

rozdělení chí kvadrát

pokud náhodnou veličinu s normovaným normálním rozdělením umocníme na druhou, získáme náhodnou veličinu Z², která má rozdělení chí kvadrát = X² (psáno chí, dolní index 1 a to celé na druhou) => spodní index označuje stupně volnosti = parametr rozdělení

př. 4 nezávislé veličiny ∼ N(0, 1) => součet jejich druhých mocnin bude mít rozdělení chí kvadrát se čtyřmi stupni volnosti

využití při tvorbě konfidenčních intervalů

<p>pokud náhodnou veličinu s normovaným normálním rozdělením umocníme na druhou, získáme náhodnou veličinu Z<strong>²</strong>, která má rozdělení chí kvadrát = X<strong>² </strong> (psáno chí, dolní index 1 a to celé na druhou) =&gt; spodní index označuje stupně volnosti = parametr rozdělení</p><p>př. 4 nezávislé veličiny ∼ N(0, 1) =&gt; součet jejich druhých mocnin bude mít rozdělení chí kvadrát se čtyřmi stupni volnosti</p><p>využití při tvorbě konfidenčních intervalů</p>
New cards
30

Studentovo t-rozdělení

potřebujeme: náhodnou veličinu Z0 s normovaným normálním rozdělením + na ní nezávislou náhodnou veličinu “suma Zi na druhou”, která má rozdělení chí kvadrát s n stupni volnosti => naše veličina se studentovým t-rozdělením bude míst stejně stupňů volnosti jako použitá vel. s rozdělením chí kvadrát

graf hustoty pravděpodobnosti připomíná normované normální rozdělení s těžšími chvosty (viz obrázek) => můžeme využít stejných vlastností jako u normovaného normálního rozdělení, jež vyplývají z jeho symetrie kolem nuly. S rostoucím počtem stupňů volnosti si jsou obě rozdělení podobnější, při n jdoucím k nekonečnu se stávají identickými

<p>potřebujeme: náhodnou veličinu Z<sub>0</sub> s normovaným normálním rozdělením + na ní nezávislou náhodnou veličinu “suma Z<sub>i</sub> na druhou”, která má rozdělení chí kvadrát s n stupni volnosti =&gt; naše veličina se studentovým t-rozdělením bude míst stejně stupňů volnosti jako použitá vel. s rozdělením chí kvadrát</p><p>graf hustoty pravděpodobnosti připomíná normované normální rozdělení s těžšími chvosty (viz obrázek) =&gt; můžeme využít stejných vlastností jako u normovaného normálního rozdělení, jež vyplývají z jeho symetrie kolem nuly. S rostoucím počtem stupňů volnosti si jsou obě rozdělení podobnější, při n jdoucím k nekonečnu se stávají identickými</p><p></p>
New cards
31

Fisherovo F rozdělení

získáme ho pomocí 2 nezávislých náhodných veličin (označíme je X1 a X2), které mají rozdělení chí kvadrát s n1 a n2 stupni volnosti => vzniklá náhodná veličina má Fisherovo rozdělení s n1 a n2 stupni volnosti (zapisujeme F ∼ Fn1,n2)

dva parametry: stupně volnosti veličiny v čitateli a stupně volnosti veličiny ve jmenovateli

pokud umocníme na druhou náhodnou veličinu s rozdělením tn, dostaneme náhodnou veličinu s rozdělením F1,n

<p>získáme ho pomocí 2 nezávislých náhodných veličin (označíme je X1 a X2), které mají rozdělení chí kvadrát s n1 a n2 stupni volnosti =&gt; vzniklá náhodná veličina má Fisherovo rozdělení s n1 a n2 stupni volnosti (zapisujeme F ∼ Fn1,n2)</p><p>dva parametry: stupně volnosti veličiny v čitateli a stupně volnosti veličiny ve jmenovateli</p><p>pokud umocníme na druhou náhodnou veličinu s rozdělením tn, dostaneme náhodnou veličinu s rozdělením F1,n</p><p></p>
New cards
32

absolutní četnost

počet prvků v úrovních statistických znaků

př. kolik je v souboru mužů (muž = úroveň statistického znaku pohlaví)

celé nezáporné číslo

značka: fj (j=označení dané kategorie, podsouboru)

New cards
33

relativní četnost

poměr, počet procent zastoupení

značka: pj

pj=fj/n (př. 3 lidi z 10 mají v souboru modré oči (3 = absolutní četnost) => 3/10 => relativní četnost = 0,3)

New cards
34

kumulativní četnost

kolik prvků má stejnou nebo menší hodnotu

př. kolik dětí má 5 sourozenců a méně

(je to jako distribuční fce)

New cards
35

histogram

grafické znázornění četností

interval z jedné strany uzavřený, z druhé otevřený => záleží na nás, zda z leva nebo z prava; je na nás, kolik si dáme kategorií a jak si nastavíme krajní hodnoty

pomáhá nám pozorovat přibližný tvar grafu hustoty pravděpodobnosti náhodné veličiny, která se ukazuje jako kvantitativní znak

<p>grafické znázornění četností</p><p>interval z jedné strany uzavřený, z druhé otevřený =&gt; záleží na nás, zda z leva nebo z prava; je na nás, kolik si dáme kategorií a jak si nastavíme krajní hodnoty</p><p>pomáhá nám pozorovat přibližný tvar grafu hustoty pravděpodobnosti náhodné veličiny, která se ukazuje jako kvantitativní znak</p><p></p>
New cards
36

odlehlá pozorování

významně svou hodnotou vybočuje

“outliers”

někdy je možné je vyřadit (př. zaměřuji se na studenty 20-26 let, ale dotazník mi vyplnili i 2 lidé mimo tuto kategorii X nemůžu je vyhodit, i když se mi nelíbí) => použiji robustní statistiku

New cards
37

aritmetický průměr

míra polohy

součet všech hodnot vydělený jejich počtem

ne vždy to má smysl (např. u nominálních hodnot - př. pohlaví)

využití jen u kvantitativních statistických znaků (když to budu dělat třeba z pořadí, musím si uvědomit, že tím vyjádřím jen průměrné pořadí a nic jiného)

New cards
38

vážený průměr

každá jednotka má váhu (některé prvky souboru jsou důležitější než jiné => mají jiné váhy => musím to započítat do průměru => vážený průměr)

pracujeme s hodnotami (x1, x2…) a jejich váhami (w1, w2…)

výpočet: suma wi*xi/suma wi

kromě různých vah se taky využívá, pokud máme průměry více skupin, které nejsou stejně obsáhlé (př. v jedné skup. je 10 lidí a ve druhé 12) => výpočet: n1*průměr1 + n2*průměr2 + … nn*průměrn/součet všech n

New cards
39

useknutý průměr

robustní modifikace průměru

seřadím pozorování (od nejmenší po největší) a z obou stran useknu stejný počet pozorování (x %)

př. 0 0 1 1 1 1 2 2 2 3 3 4 5 8 9 13 18 29 300 => podtržené hodnoty useknu a spočítám průměr z toho zbytku (z obou stran jsme usekli 4 hodnoty, což je 20 %) => původní průměr = 20,5 X useknutý průměr (20 %) = 4

New cards
40

winsorizovaný průměr

robustní modifikace průměru

podobné jako useknutý průměr, ale ty krajní hodnoty nevymažu, ale udělám z nich hodnoty, co jsou na kraji useknutí (u useknutého průměru)

př. 0 0 1 1 1 1 2 2 2 3 3 4 5 8 9 13 18 29 300 => z podtržených částí se mi stane: 1 1 1 1 a 9 9 9 9 => původní průměr = 20,5 X winsorizovaný průměr (w 20 %ú = 4,4)

New cards
41

výběrový medián

střed; u lichých počtů pozorování je to číslo uprostřed, u sudých je to průměr dvou středních hodnot

jde to u ordinálních, pořadových dat (průměr ne)

je vysoce robustní (průměr ne)

dělí to na dva stejně velké soubory/poloviny (po 50 %) ((dá se to brát jako krajní případ useknutého průměru, kdy ponecháme jen 1 nebo dva prvky)

New cards
42

výběrový kvantil

umožňuje nám rozdělit soubor v nějakém poměru - př. 25:75

α = číslo od 0 do 1

výpočet kvantilu: n*α
- pokud je výsledek celé číslo => kvantil = (xn*α + xn*α+1)/2
- jinak zaokrouhlíme výsledek n*α nahoru => značíme [nα] => kvantil bude xα = x[nα]

př. 0 0 1 1 1 | 1 2 2 2 3 3 4 5 8 8 9 13 18 29 300
n = 20; α = 25 % => n*α = 20×0,25 = 5 => udělám průměr 5. a 6. prvku

New cards
43

výběrový modus

jediná míra polohy, která se dá uplatnit i na kvalitativní data (tam se musí hodnoty dát do kategorií)

nejčastější hodnota v souboru

typy: unimodální (1 hodnota), bimodální (2 hodnoty- př. modus je 3 a 5), multimodální (3 a více hodnot - př. modus je 3, 5 a 12)

New cards
44

krabicový graf

vizualizace charakteristik míry polohy

části: krabička, jejíž hrany jsou na krajích kvartilů (Q1 a Q3) + čára znázorňující medián + vousy sahající k nejnižší a nejvyšší naměřené hodnotě, která ještě není odlehlé pozorování (odlehlá pozorování jsou 1,5 násobek mezikvartilového rozpětí => 1,5*(Q3-Q1))

výhody: opírá se o robustní ukazatele, ale zároveň ukazuje i odlehlá pozorování

<p>vizualizace charakteristik míry polohy</p><p>části: krabička, jejíž hrany jsou na krajích kvartilů (Q1 a Q3) + čára znázorňující medián + vousy sahající k nejnižší a nejvyšší naměřené hodnotě, která ještě není odlehlé pozorování (odlehlá pozorování jsou 1,5 násobek mezikvartilového rozpětí =&gt; 1,5*(Q3-Q1))</p><p>výhody: opírá se o robustní ukazatele, ale zároveň ukazuje i odlehlá pozorování</p>
New cards
45

variační rozpětí

R = Xmax-Xmin

míra variability

New cards
46

mezikvartilové rozpětí

IQR = Q3 - Q1 (Q3 = X0,75; Q1 = X0,25)

míra variability

New cards
47

průměrná absolutní odchylka

v průměru se lidé liší od průměru o …

značí se d (s čarou)

míra variability

sečteme absolutní hodnoty rozdílů jednotlivých měření od průměru a vydělíme je počtem

New cards
48

mediánová absolutní odchylka

robustnější než průměrná odchylka

značí se MAD

míra variability

MAD kolem průměru: sečteme absolutní hodnoty rozdílů jednotlivých měření od průměru a vybereme z toho medián

MAD kolem mediánu: sečteme absolutní hodnoty rozdílů jednotlivých měření od mediánu a vybereme z toho medián

New cards
49

výběrový rozptyl (variance)

míra variability

průměr součtu čtverců (součet čtverců = součet druhých mocnin rozdílů jednotlivých hodnot od průměru) (POZOR! - nedělí se SČ celkovým počtem, ale n-1)

vlastnosti:

  • lze ho počítat jen na kvantitativních znacích; pokud sledovaný znak označuje pořadí, tak (podobně jako v případě průměru) rozptyl lze spočítat, avšak získaný údaj se bude vztahovat zase pouze k pořadí, ne k původní veličině, podle které byla měření seřazena.

  • Rozptyl nikdy nemůže být záporný.

  • Pokud je rozptyl roven nule, znamená to, že všechny naměřené hodnoty jsou přesně stejné (tedy rovné průměru).

  • Rozptyl je velmi citlivý na odlehlá pozorování.

  • Podobně jako jsme definovali useknutý a winsorizovaný průměr, můžeme definovat useknutý a winsorizovaný rozptyl, respektive směrodatnou odchylku. Získáme tak ukazatele s vyšší robustností.

<p>míra variability</p><p>průměr součtu čtverců (součet čtverců = součet druhých mocnin rozdílů jednotlivých hodnot od průměru) (POZOR! - nedělí se SČ celkovým počtem, ale n-1)</p><p>vlastnosti:</p><ul><li><p>lze ho počítat jen na kvantitativních znacích; pokud sledovaný znak označuje pořadí, tak (podobně jako v případě průměru) rozptyl lze spočítat, avšak získaný údaj se bude vztahovat zase pouze k pořadí, ne k původní veličině, podle které byla měření seřazena.</p></li><li><p>Rozptyl nikdy nemůže být záporný.</p></li><li><p>Pokud je rozptyl roven nule, znamená to, že všechny naměřené hodnoty jsou přesně stejné (tedy rovné průměru).</p></li><li><p>Rozptyl je velmi citlivý na odlehlá pozorování.</p></li><li><p>Podobně jako jsme definovali useknutý a winsorizovaný průměr, můžeme definovat useknutý a winsorizovaný rozptyl, respektive směrodatnou odchylku. Získáme tak ukazatele s vyšší robustností.</p></li></ul>
New cards
50

výběrová směrodatná odchylka

míra variability

odmocnina z výběrového rozptylu

je jednodušší na pochopení než výběrový rozptyl

((kdyby bylo s = 0, tak i průměr by byl 0 a všechny pozorování mají stejnou hodnotu))

je velmi citlivá na odlehlá pozorování

můžeme udělat useknutou a winsorizovanou smerodatnou odchylku => vyšší robustnost

<p>míra variability</p><p>odmocnina z výběrového rozptylu</p><p>je jednodušší na pochopení než výběrový rozptyl</p><p>((kdyby bylo s = 0, tak i průměr by byl 0 a všechny pozorování mají stejnou hodnotu))</p><p>je velmi citlivá na odlehlá pozorování</p><p>můžeme udělat useknutou a winsorizovanou smerodatnou odchylku =&gt; vyšší robustnost</p>
New cards
51

variační koeficient

používá se k porovnání velikosti variability u dvou různých znaků nebo ve dvou souborech

př. je výška variabilnější v souboru mužů nebo žen? => muži jsou obecně vyšší než ženy, takže rozdíl jejich směrodatných odchylek může být úměrný rozdílu v průměrné výšce

výpočet: směrodatná odchylka/průměr => vyjde nám relativní variabilita

udává, z kolika procent se směrodatná odchylka “vepisuje” do aritmetického průměru

nemá jednotky, vyjadřuje se v procentech

nelze ho počítat vždy => sledovaný statistický znak musí odpovídat množství něčeho => 0 musí být nulové množství atd. (=> nejde to u IQ, stupňů Celsia…)

New cards
52

mutabilita

zjišťuje variabilitu u KVALItativních znaků - př. barva očí => mají ji všichni v souboru stejnou nebo každý jinou?

pravděpodobnost toho, že když vylosuju 2, tak budou různé (2 jiné úrovně nominálního znaku) - př. pravděpodobnost toho, že když vylosuju dva lidi ze souboru, tak jeden bude mít každý jinou barvu očí

nabývá hodnoty od 0 do 1

n pozorování, k skupin - př. barvy očí - modrá = f1, hnědá = f2, zelená = f3, atd.

pokud je supin méně než počtů pozorování, mutabilita nikdy nedosáhne hodnoty 1 (max. hodnota bude pak (n(k-1))/(k(n-1))

<p>zjišťuje variabilitu u KVALItativních znaků - př. barva očí =&gt; mají ji všichni v souboru stejnou nebo každý jinou?</p><p>pravděpodobnost toho, že když vylosuju 2, tak budou různé (2 jiné úrovně nominálního znaku) - př. pravděpodobnost toho, že když vylosuju dva lidi ze souboru, tak jeden bude mít každý jinou barvu očí</p><p>nabývá hodnoty od 0 do 1</p><p>n pozorování, k skupin - př. barvy očí - modrá = f1, hnědá = f2, zelená = f3, atd.</p><p>pokud je supin méně než počtů pozorování, mutabilita nikdy  nedosáhne hodnoty 1 (max. hodnota bude pak (n(k-1))/(k(n-1))</p>
New cards
53
<p><span style="font-family: PT Sans, Arial, Helvetica, sans-serif">výběrová šikmost</span></p>

výběrová šikmost

pro lepší představu histogramu našich měření

ukazatel toho, do jaké míry je uspořádání nalezených hodnot symetrické kolem jejich aritmetického průměru (= míra asymetrie)

značí se b
b > 0 => častější realizace podprůměrných hodnot, protažený pravý chvost (vlevo jsou vysoké sloupce a směrem doprava jsou menší)
b < 0 => častější realizace nadprůměrných hodnot, protažený levý chvost (vlevo jsou malé sloupce a směrem doprava jsou velké)
b = 0 => symetrické

čím vyšší číslo, tím delší chvost (ocásek)

protějšek teoretické šikmosti (pomocí toho popisujeme rozdělení náhodné veličiny), symetrická rozdělení (normální, studentovo…) mají šikmost nulovou

<p>pro lepší představu histogramu našich měření</p><p>ukazatel toho, do jaké míry je uspořádání nalezených hodnot symetrické kolem jejich aritmetického průměru (= míra asymetrie)</p><p>značí se b<br>b &gt; 0 =&gt; častější realizace podprůměrných hodnot, protažený pravý chvost (vlevo jsou vysoké sloupce a směrem doprava jsou menší)<br>b &lt; 0 =&gt; častější realizace nadprůměrných hodnot, protažený levý chvost (vlevo jsou malé sloupce a směrem doprava jsou velké)<br>b = 0 =&gt; symetrické </p><p>čím vyšší číslo, tím delší chvost (ocásek)</p><p>protějšek teoretické šikmosti (pomocí toho popisujeme rozdělení náhodné veličiny), symetrická rozdělení (normální, studentovo…) mají šikmost nulovou</p>
New cards
54
<p><span style="font-family: PT Sans, Arial, Helvetica, sans-serif">výběrová špičatost</span></p>

výběrová špičatost

jak moc jsou hodnoty namačkané ve středu (jak moc se hodnoty točí okolo průměru)

na rozdíl od šikmosti (která nás zajímá u nesymetrických rozdělení) nás špičatost zajímá u symetrických rozdělení

značí se g

ve vzorci se odečítá číslo 3, aby hodnotám, které pocházejí z normálního rozdělení náležela v průměru výběrová špičatost 0 (normální rozdělení by jinak mělo špičatost 3) => díky tomu špičatost značí, o kolik je tvar sledovaného znaku špičatější než normální rozdělení

g < 0 => málo špičaté, placatější než normální rozdělení
g > 0 => hodně špičaté, špičatější než normální rozdělení

pokud jsou hodnoty hodně k minimu a maximu než k průměru, bude špičatost hodně záporná

protějšek teoretické špičatosti, která analogickým způsobem popisuje tvar grafu hustoty pravděpodobnosti náhodné veličiny

<p>jak moc jsou hodnoty namačkané ve středu (jak moc se hodnoty točí okolo průměru)</p><p>na rozdíl od šikmosti (která nás zajímá u nesymetrických rozdělení) nás špičatost zajímá u symetrických rozdělení</p><p>značí se g </p><p>ve vzorci se odečítá číslo 3, aby hodnotám, které pocházejí z normálního rozdělení náležela v průměru výběrová špičatost 0 (normální rozdělení by jinak mělo špičatost 3) =&gt; díky tomu špičatost značí, o kolik je tvar sledovaného znaku špičatější než normální rozdělení</p><p>g &lt; 0 =&gt; málo špičaté, placatější než normální rozdělení <br>g &gt; 0 =&gt; hodně špičaté, špičatější než normální rozdělení</p><p>pokud jsou hodnoty hodně k minimu a maximu než k průměru, bude špičatost hodně záporná</p><p>protějšek teoretické špičatosti, která analogickým způsobem popisuje tvar grafu hustoty pravděpodobnosti náhodné veličiny</p>
New cards
55

výběrová kovariance

míra závislosti

zobecnění rozptylu, který spolu 2 znaky sdílí
VAR (X) = COV (X,X)

s > 0 => vysoké hodnoty x souvisejí s vysokými hodnotami y (rostoucí x má tendenci v průměru k rostoucímu y)
s < 0 => vysoké hodnoty x se pojí spíše s nízkými hodnotami y (rostoucí x má tendenci v průměru ke klesajícímu y)
s = 0 => není lineární vztah (nedá se říct, že by rostoucí x souviselo s rostoucím nebo klesajícím y)

většinou se nepoužívá pro popis, ale jenom jako dílčí krok při výpočtech (má divné jednotky - př. body IQ krát centimetry)

<p>míra závislosti</p><p>zobecnění rozptylu, který spolu 2 znaky sdílí <br>VAR (X) = COV (X,X)</p><p>s &gt; 0 =&gt; vysoké hodnoty x souvisejí s vysokými hodnotami y (rostoucí x má tendenci v průměru k rostoucímu y)<br>s &lt; 0 =&gt; vysoké hodnoty x se pojí spíše s nízkými hodnotami y (rostoucí x má tendenci v průměru ke klesajícímu y)<br>s = 0 =&gt; není lineární vztah (nedá se říct, že by rostoucí x souviselo s rostoucím nebo klesajícím y)</p><p>většinou se nepoužívá pro popis, ale jenom jako dílčí krok při výpočtech (má divné jednotky - př. body IQ krát centimetry)</p>
New cards
56

Pearsonův korelační koeficient

není v jednotkách

v intervalu od -1 do 1

značí se r (+ je symetrický => rxy = ryx)

těsnost vztahu podle r:
|r| < 0.1 zanedbatelný vztah
|r| < 0.3 slabý vztah
|r| < 0.5 středně silný vztah
|r| ≥ 0.5 silný vztah
r = 1 přímá úměra

r = 0 vztah mezi znaky není lineární

nezmění se, i když jeden ze znaků (x nebo y) vynásobíme, vydělíme, přičteme k němu něco

rxy = rax+b, y (pokud budu násobit záporným číslem => změní se znaménko r (obrátí se, z kladného bude záporné a naopak)

není robustní!
popisuje to korelaci, ale ne kauzalitu
popisuje to v průměru
ideální pro data bez outlierů, metrická data…

standardizovaná kovariance => vydělení kovariance směrodatnými odchylkami obou znaků

<p>není v jednotkách</p><p>v intervalu od -1 do 1</p><p>značí se r (+ je symetrický =&gt; r<sub>xy</sub> = r<sub>yx)</sub></p><p>těsnost vztahu podle r:<br>|r| &lt; 0.1 zanedbatelný vztah <br>|r| &lt; 0.3 slabý vztah<br>|r| &lt; 0.5 středně silný vztah<br>|r| ≥ 0.5 silný vztah<br>r = 1 přímá úměra</p><p>r = 0 vztah mezi znaky není lineární</p><p>nezmění se, i když jeden ze znaků (x nebo y) vynásobíme, vydělíme, přičteme k němu něco</p><p>r<sub>xy</sub> = r<sub>ax+b, y</sub> (pokud budu násobit záporným číslem =&gt; změní se znaménko r (obrátí se, z kladného bude záporné a naopak)</p><p>není robustní!<br>popisuje to korelaci, ale ne kauzalitu <br>popisuje to v průměru<br>ideální pro data bez outlierů, metrická data…<br></p><p>standardizovaná kovariance =&gt; vydělení kovariance směrodatnými odchylkami obou znaků</p><p></p>
New cards
57

bodově-biseriální korelační koeficient

varianta Pearsonova korelačního koeficientu

stejný jako Pearson, když máme jednom sloupci pouze hodnoty 0 a 1 (nominál.)

pouze v intervalu od -1 do 1

značka: rpb

popisuje pouze lineární vztahy

př. jedním znakem je pohlaví

<p>varianta Pearsonova korelačního koeficientu</p><p>stejný jako Pearson, když máme jednom sloupci pouze hodnoty 0 a 1 (nominál.)</p><p>pouze v intervalu od -1 do 1</p><p>značka: r<sub>pb</sub></p><p>popisuje pouze lineární vztahy </p><p>př. jedním znakem je pohlaví </p>
New cards
58

koeficient fí

varianta Pearsonova korelačního koeficientu

stejný jako Pearson, když oba sledované znaky nabývají pouze hodnot 0 nebo 1

značí se rϕ (fí)

zapisuje se to do tabulky 2×2 (čtyřpolní tabulka) - každá statistická jednotka může patřit do jedné ze 4 kategorií: 1-1, 1-0, 0-1, 0-0

př. je více leváků mezi muži nebo ženami?

ne vždy se pohybuje v intervalu od -1 do 1 - nedosáhneme do kraje, pokud nejsou stejné poměry na obou stranách (př. leváci : praváci muži : ženy => nemůže nám to vyjít (-)1)

New cards
59

Spearmanův korelační koeficient

dám hodnotám pořadí od největší po nejmenší (nebo naopak) v obou sloupcích => spočítám druhou mocninu rozdílů pořadí v hodnotě prvního a druhého znaku (d2) => hodím to do vzorce

X když jich má několik stejné pořadí (př. 1, 6, 7, 6, 5 => 5., 2.-3.=2,5., 1., 2.-3.=2,5., 4.) => nemůžu na to použít Spearmana => musím použít Pearsona

je vysoce robustní, o dost více než Pearsonův korelační koeficient (outlieři nejsou => je fuk, jestli mám poslední hodnotu 300 nebo 300 000)

dá se použít i na ordinální proměnné

můžeme ho spočítat i tehdy, když nemáme původní data, stačí nám vědět pořadí u obou znaků

dokáže popsat libovolný monotónní vztah (rostoucí/klesající), nejen ten lineární (na rozdíl od Pearsona) ((př. pokud by platilo, že y=x2, tak by Spearman vyšel 1, ale Pearson by vyšel asi menší)

<p>dám hodnotám pořadí od největší po nejmenší (nebo naopak) v obou sloupcích =&gt; spočítám druhou mocninu rozdílů pořadí v hodnotě prvního a druhého znaku (d<sup>2</sup>) =&gt; hodím to do vzorce</p><p><strong>X</strong> když jich má několik stejné pořadí (př. 1, 6, 7, 6, 5 =&gt; 5., 2.-3.=2,5., 1., 2.-3.=2,5., 4.) =&gt; nemůžu na to použít Spearmana =&gt; musím použít Pearsona</p><p>je vysoce robustní, o dost více než Pearsonův korelační koeficient (outlieři nejsou =&gt; je fuk, jestli mám poslední hodnotu 300 nebo 300 000)</p><p>dá se použít i na ordinální proměnné</p><p>můžeme ho spočítat i tehdy, když nemáme původní data, stačí nám vědět pořadí u obou znaků</p><p>dokáže popsat libovolný monotónní vztah (rostoucí/klesající), nejen ten lineární (na rozdíl od Pearsona) ((př. pokud by platilo, že y=x<sup>2</sup>, tak by Spearman vyšel 1, ale Pearson by vyšel asi menší)</p>
New cards
60
<p><span style="font-family: PT Sans, Arial, Helvetica, sans-serif">bodový graf</span></p>

bodový graf

je lepší vidět celá data v grafu, než je zredukovat na jedno číslo (Spearman, Pearson)

některé vztahy nejdou ani Pearsonem ani Spearmanem, ale jsou vidět v grafu (nejsou lineární ani rostoucí nebo klesající, ale jsou třeba jako kopec (nejdřív nahoru, pak dolu)

omezení: když oba sledované znaky nabývají jen malého počtu různých hodnot (př. souvislost známky z čj se známkou z matematiky) => vyřešíme to přičtením náhodných čísel, která nezmění interpretaci, ale pomůžou nám vyčíst to, co potřebujeme (obvykle jsou to čísla z normálního rozdělení se středem v nule a malým rozptylem)

<p>je lepší vidět celá data v grafu, než je zredukovat na jedno číslo (Spearman, Pearson)</p><p>některé vztahy nejdou ani Pearsonem ani Spearmanem, ale jsou vidět v grafu (nejsou lineární ani rostoucí nebo klesající, ale jsou třeba jako kopec (nejdřív nahoru, pak dolu)</p><p>omezení: když oba sledované znaky nabývají jen malého počtu různých hodnot (př. souvislost známky z čj se známkou z matematiky) =&gt; vyřešíme to přičtením náhodných čísel, která nezmění interpretaci, ale pomůžou nám vyčíst to, co potřebujeme (obvykle jsou to čísla z normálního rozdělení se středem v nule a malým rozptylem)</p>
New cards
61

vlastnosti bodových odhadů

estimátor je statistika (tedy náhodná veličina vytvořená z prvků náhodného výběru), která má tendenci se realizovat kolem skutečné hodnoty hledaného parametru

měřením získáme jednu realizaci náhodného výběru => získáme tím jednu realizaci našeho estimátoru => estimát (odhad)

u estimátoru požadujeme tyto vlastnosti:

  • výpočet se musí opírat pouze o náhodný výběr (X1, X2, X3,…Xn)

  • nevychýlenost/nestrannost = nepodhodnocuje, nenadhodnocuje => střední hodnota estimátoru = střední hodnota odhadovaného parametru (E(X s pruhem)=μ) (aritmetický průměr je nestranný; kde se v průměru realizuje aritmetický průměr)

  • rozptyl estimátoru je nejmenší možný - motá se co nejmíň okolo té hodnoty (VAR(X s pruhem) => pokud je i nestranný = nejlepší nestranný odhad

  • čím více pozorování (n), tím přesnější => konzistentní odhad (čím větší soubor, tím konzistentnější odhad, přesnější estimátor)

  • nedá se vyrobit žádný estimátor, který by byl lepší (nejmenší rozptyl)

New cards
62

náhodný výběr

uspořádaná entice náhodných veličin, které mají indetické rozdělení pravděpodobnosti

  • všechny náhodné veličiny jsou stejné (= mají stejné rozdělení pravděpodobnosti), liší se jen jmény, které jsme jim dali

    • podmínky identického rozdělení zajístíme tím, že všechna pozorování budeme provádět za stejných podmínek + zařídíme nezávislost (př. u pozorování aut - budeme je pozorovat s časovými odstupy, aby se řidiči nemohli ovlivnit)

  • jsou vzájemně NEZÁVISLÉ!

nkrát realizujeme veličinu X s normálním rozdělením => realizujeme klony této veličiny, ntice

n naměřených hodnot (x1, x2, x3,…,xn) představuje jedinou realizaci náhodného výběru X

náhodná veličina nemá číslo, když se realizuje, realizuje se číselně

libovolná kombinace náhodných veličin je také náhodná veličina, tedy i náš průměr X (s pruhem) je náhodnou veličinou se svou distribuční funkcí, střední hodnotou, rozptylem atd.

Funkce, jejímž argumentem je náhodný výběr, se nazývá výběrová funkce neboli statistika.

př. malé x s pruhem = realizace náhodné veličiny X s pruhem

New cards
63

populační vs. výběrová variance

estimátor rozptylu = výběrový nebo populační rozptyl

máme k dispozici jen n prvků vybraných z větší populace => použijeme výběrový rozptyl => nestranný (E(S2) = σ2), širší rozptyl (ve jmenovateli je 1-n),

máme k dispozici všech N prvků (n=N) => použijeme populační rozptyl => přesnější, ale podhodnocuje (ve jmenovateli je n), je nejlepší možný (má nejmenší rozptyl)

obvykle dáváme přednost výběrovému rozptylu

(rozdělení výběrového rozptylu je modifikovaný chí kvadrát (stupně volnosti n-1))

New cards
64

populační vs. výběrová kovariance

stejné problémy jako u estimátoru rozptylu

nemá symetrickou hustotu pravděpodobnosti → nejsme schopni vytvořit jeden estimátor, který by splňoval všechny požadavky zároveň → máme dva estimátory

populační kovariance - není nestranná (je pouze asymptoticky nestranná) + je nejlepší možná (má nejmenší rozptyl, estimáty méně kolísají)

výběrová kovariance - je nestranná (E(Sxy) se rovná skutečné hodnotě sxy), není nejlepší možná (VAR(Sxy) není ten nejmenší – více kolísá)

obvykle dáváme přednost výběrové kovarianci

New cards
65

jednostranný a dvoustranný konfidenční interval

jelikož náš bodový odhad nebude nikdy přesný (μ nikdy nebude přesně stejné jako x s pruhem (průměr))

=> je lepší prezentovat to v intervalech, aby to bylo přesnější

intervaly spolehlivosti = konfidenční intervaly

oboustranný konfidenční interval = dvojice statistik (dolní a horní), které když se realizují, tak s určitou spolehlivostí 1-α vytvoří interval, ve kterém se nachází námi hledaný parametr (př. μ)
(ta dolní statistika se realizuje s menší hodnotou, než je hodnota námi hledaného parametru, a horní statistika se realizuje s hodnotou větší, než je hodnota námi hledaného parametru)

je vždy stanoven s určitou spolehlivostí, kterou vyjádříme číslem mezi 0 a 1 (značí se 1-α, kde α značí nespolehlivost)

=> vytváříme interval, který v (1-α)*100 procentech případů (převedeme spolehlivost na procenta) pokrývá skutečnou hodnotu hledaného parametru

jednostranný interval je stejný jako oboustranný, jen nám říká pouze jednu hranici (druhá hranice není, je to buď od - nekonečna nebo do nekonečna) a při výpočtu se nepůlí α

New cards
robot