1/52
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced |
|---|
No study sessions yet.
Reprezentativitás
A minta, amely jól tükrözi a vizsgált populációt a vizsgálat szempontjából releváns jellemzők mentén.
Miért fontos hogy a reprezentativitás teljesüljön?
Mert a mintából levont következtetések általánosíthatók lesznek a populációra
Nagy elemszám
Önmagában nem garantálja a reprezentativitást, de csökkenti a véletlen hibát.
Random mintavétel
A populáció minden tagjának egyforma esélye van a mintába való bekerülésre.
A gyakorlatban ritkán biztosítható.
Mintavételi torzítás
Olyan hiba, amely akkor fordul elő, ha a minta nem reprezentatív.
Populáció arányos reprezentálása
A cél, hogy a vizsgálat szempontjából fontos változók mentén a populációt arányosan reprezentáljuk.
Központi Határeloszlás Tétel
Kellően sok, kellően nagy elemszámú, egymástól független, meghatározható átlaggal és szórással rendelkező minta számtani átlaga normál eloszláshoz fog közelíteni, függetlenül a változó eredeti eloszlásától (a populációban).
Standard hiba (SE - standard error)
A populációból vett minták átlagainak szórása, ami a hipotetikus mintaátlag eloszlásának szórása.
Konfidencia-intervallum = intervallumbecslés!
Egy olyan intervallum a mintánk átlaga körül, amelyet úgy számítunk,
hogy ha sok mintát vennénk a populációból, az így képzett intervallumok
kb. 95%-a tartalmazná a valódi populációátlagot
Elsőfajú hiba (False positive)
Itt a valóságban nincs különbség a 2 populáció között (pl. nők-férfiak IQ), de a mintánk azt mutatja, hogy van.
Másodfajú hiba (false negative)
Itt a valóságban van különbség a 2 populáció között (pl. nők-férfiak magassága), de a mintánk azt mutatja, hogy nincs.
Hatásnagyság (effect size)
Standard mérőszám, ami a megfigyelt hatás nagyságáról/ fontosságáról árulkodik
Statisztikai erő
Arra való képesség, hogy ha egy populációban van hatás, azt észleljük.
Képesek leszünk elutasítani a nullhipotézist hogyha az nem igaz.
A másodfajú hiba (van hatás, de mi nem vesszük észre) ellentéte.
p-érték
A valószínűség, hogy a minta eredménye a véletlen műve, ha a nullhipotézis igaz.
Z-érték
Egy skálázatlan (standardizált) mérőszám, ami azt fejezi ki, hogy a nyers pontszámunk (pl. valamilyen magasság érték) hány szórásnyira van az átlagtól (vagyis, hogy mennyire tér el az átlagtól)
Standardizálás
A nyers adatok átalakítása, hogy könnyen összehasonlíthatóak legyenek más adatokkal.
Kétvégű teszt
Nem tudjuk előre, hogy milyen irányú hatást várjunk, érdekel minket mind a két lehetőség:
pl. A férfiak és nők között különbség van abban, hogy mennyire szeretik a csokit = two-tailed test
=> Nem 5% -kal teszteljük mind a két oldalt, hanem megosztjuk 2,5 – 2,5% -ra = ez így szigorúbb teszt
Egyvégű teszt
Olyan hipotézistesztelés, ahol konkrét feltételezésünk van a hatás irányáról:
pl. A férfiak magasabbak, mint a nők = one-tailed test
=> Az 5% -nak megfelelő szignifikancia-szintet az eloszlásgörbe egyik oldalán helyezzük el = ez így megengedőbb teszt
Mi segíti a reprezentativitás megvalósulását?
-Nagy elemszám: csökkenti a véletlen hibát
-random mintavétel: gyakorlatban ritkán biztosítható
-törekvés a mintavételi torzítás elkerülésére
-törekedni kell a populáció arányos reprezentálására a vizsgálat szempontjából fontos változók mentén.
-Végül át kell gondolni, hogy valójában mely populáció az, amire következtetni tudunk a minta alapján
A mintánk értékeinek gyakoriságeloszlása DISZKRÉT VÁLTOZÓK
kördiagram, oszlopdiagram => a skála diszkrét értékeinek a gyakorisága
A mintánk értékeinek gyakoriságeloszlása FOLYTONOS VÁLTOZÓK
hisztogram => a skála egyforma széles intervallumokra van bontva, egy intervallumon belül eső értékek gyakorisága
A mintánk értékeinek gyakoriságeloszlása
Unimodális eloszlás, szimmetrikus az átlag körül
Haranggörbe alakú: az átlagnak (és az átlaghoz közeli értékeknek) van a legnagyobb előfordulási valószínűsége, és ahogy közeledünk a szélsőségek felé, úgy csökken az adott értékek előfordulási valószínűsége
Standard normál eloszlás
Ha valamely jelenséget/tulajdonságot sok, egymástól független
tényező együttesen alakít ki, akkor ez az érték várhatóan
normál eloszlást fog követni (pl. egyének magassága,
vérnyomás, teszten elért eredmény, egy reptéri nap forgalma, stb)
=> Közepes összeget nagyon sokféle kombinációval el lehet érni
=> Igazán alacsony/ igazán magas összeget csak úgy lehet elérni, ha a legtöbb ezt kialakító érték alacsonyan/magasan helyezkedik el (ami nagyon ritkán fordul elő)
=> A világ rengeteg dolga több tényező eredményeként jön létre, ezért fognak ezek normál eloszláshoz közelíteni
Miért kulcsfontosságú a központi határeloszlás tétel a gyakorlatban?
A KHT miatt nem kell a populációnak normálisnak lennie, mert elég nagy minta esetén a mintaátlagok eloszlása közel normális lesz.
=> Ennek köszönhetően a normál eloszlásra épülő statisztikai próbák akkor is használhatók, ha a vizsgált változó eredetileg nem követ normál eloszlást – feltéve, hogy a minta elég nagy.
Populációeloszlás és KHT kapcsolata
-Ha a populáció eloszlása már eleve közel normális, akkor kis mintával is jól működik a KHT.
-Ha az eredeti eloszlás ferde vagy szélsőséges (outlierekkel teli), akkor sokkal nagyobb mintára lehet szükség ahhoz, hogy az átlagok eloszlása megközelítse a normál eloszlást.
Z-érték példák
Z = 0: az a pont, amely az átlagtól 0 szórásnyira helyezkedik el = átlag
Z = -1: az a pont, amely az átlagtól 1 szórásnyira helyezkedik el negatív irányba
Z = -2: az a pont, amely az átlagtól 2 szórásnyira helyezkedik el negatív irányba
Miért kell nekünk a z-érték?
1)Ezek alapján tudunk valószínűségeket rendelni a tartományokhoz.
2)Így meg tudjuk nézni, hogy melyek a szélsőséges értékek (+-2 szóráson kívül), és ki tudjuk zárni ezeket, hogy ne torzítsák a mutatóinkat.
3) Így az értékeink akkor is összehasonlíthatóak lesznek, ha két eltérő mintából származnak.
Z-érték kiszámítás
Z = (X-X ̅)/S
Pontbecslés
A mintának az átlagát arra használjuk, hogy ezzel egyfajta becslését adjuk annak, ami a populációra jellemző
=> ésszerű, mert: a mintánk valamennyire hasonlítani fog a populációra
DE azért a minták nem miniatűr tükörképei a populációnak (akár jelentősen el is térhetnek tőle)
Mi a kis elemszámú minta rizikója?
az atipikus emberek jelentősen eltorzíthatják a minta átlagát (vagy egyszerűen a minta összetétele más lesz, mint a populációé, és amiatt lesz torz az átlag).
Miért jobb a nagyobb elemszámú minta?
-Az atipikus emberek is kisebb súllyal számítanak bele az összesítésbe, így nem tudják annyira eltorzítani az átlagot.
-Nagy elemszám esetében kisebb a valószínűsége annak, hogy a minta összetétele jelentősen eltér a populációétól.
Standard hiba elmélet
Jó lenne tudni, hogy az olyan minták, mint amilyen a miénk is (elemszám és szórás ismeretében), átlagosan mennyire trafálnak mellé, amikor a populációátlagot becslik. à Ha ismerjük a mintaátlagok átlagának pontosságát, akkor ezzel megtudunk valamit arról,
hogy mennyire valószínű, hogy egy minta jól reprezentálja a populációt.
-Tulajdonképpen ez lenne a populációból vett minták átlagainak
a szórása ~ átlagos mellétrafálás (mekkora variabilitás volt a mintaátlagokban)
-És ez megbecsülhető egyetlen minta alapján is.
Mitől függ a standard hiba értéke?
-Elemszám: minél nagyobb az elemszám,
annál kisebb a standard hiba
-Szórás: minél nagyobb a szórás,
annál nagyobb a standard hiba
Intervallumbecslés
Így nem csak egy pontot adunk, hanem a becslés bizonytalanságát is kommunikáljuk.
1. Vegyünk rengeteg mintát a populációból, számoljuk ki mindegyiknek a mintaátlagát.
2. Ezek a mintaátlagok normál eloszlást fognak követni a KHT-nek köszönhetően.
3. Határozzunk meg két olyan határértéket, amikben a mintaátlagok 95% -a belesik.
=>„100-ből 95 minta esetében az átlagra rámért intervallum
tartalmazza a populációátlagot”
– 5%-nyi tévedés marad!
Intervallumbecslés számítás
CI = SE * 1,96
Mit mutat meg a standard hiba?
=> Azt mutatja meg, hogy ha sok-sok olyan kaliberű mintánk lenne, mint amilyen a miénk, azok átlagosan mennyit tévednének, amikor a populáció átlagát igyekeznek megbecsülni.
=> Mennyire bizonytalan az általunk mért minta átlaga
Elsőfajú hiba elmélet
= A populációban nincs jelen hatás, nekem mégis sikerült olyan mintát választanom, amiből úgy tűnik, hogy van hatás.
= Elvetjük a nullhipotézist, pedig az valójában igaz.
Egy jó vizsgálatban az elsőfajú hiba maximuma: 5% (Fisher)
=> A tévedés maximálisan elfogadható valószínűségét a szignifikancia
szinttel határozzuk meg.
Másodfajú hiba elmélet
= A populációban jelen van a hatás, de sikerült olyan szerencsétlenül mintát választanunk, hogy ezt nem tudtuk kimutatni.
= A nullhipotézist megtartjuk, pedig az nem igaz.
A másodfajú hiba valószínűségét 20% -ra (Cohen) állították be
=> Az a jó vizsgálat, amiben maximum 20% esély van arra, hogy
egy populációban létező hatást mégsem leszünk képesek kimutatni.
=> Ez nem automatikusan 20%, hanem a vizsgálat tervezésétől és a mintanagyságtól függ.
Miért van eltérő szintű megengedés a 2 hibában?
Miért van eltérő szintű megengedés a 2 hibában?
=> A tudomány fejlődése szempontjából más hatása van egy elsőfajú hibának, mint a másodfajúnak.
=> Negatív, nem lineáris kapcsolat az elsőfajú és másodfajú hiba között:
-ha egyiket szigorítjuk, akkor a másiknál automatikusan engedünk
- nem ugyanannyival változik az egyik hiba valószínűsége, amennyivel a másikat módosítjuk
szignifikanciatesztelés
mekkora a valószínűsége annak, hogy az eredmény (statisztikai érték), amit kaptunk, az a véletlen műve?
~ Mekkora annak a valószínűsége (az adataink fényében), hogy ha a populációban valójában nincs jelen hatás (a nullhipotézis az igaz), mi mégis látunk bizonyos mértékű hatást a mintánkban?
=> p-érték (probability) / szignifikancia érték
Szignifikancia érték (p)
Ha a nullhipotézis igaz, akkor mekkora az esélye annak, hogy a minta legalább ilyen (vagy ennél extrémebb) eredményt produkál (pusztán a véletlennek köszönhetően)
Mennyire valószínű, hogy ez a minta (amiben különbség van) egy ilyen populációból (amiben nincs különbség) származik?
=> HA nagyon alacsony => akkor valószínűbbnek tekintjük azt, hogy nem ilyen populációból származik a minta.
Elvetjük a nullhipotézist és elfogadjuk hogy tényleg van különbség.
Szignifikanciával kapcsolatosan fontos
=> Ha látunk egy szignifikáns hatást (p < 0,05): nagy valószínűséggel tényleg ott a hatás, de akkor is marad valamekkora (<= 5%) esély arra, hogy csak mi választottunk pechesen mintát, és valójában nincs jelen semmiféle hatás, vagyis elsőfajú hibát követünk el.
=> Ha nem látunk szignifikáns hatást (p > 0,05): előfordulhat, hogy tényleg nincs jelen hatás, de az is lehetséges, hogy valójában van hatás, csak nem sikerült kimutatnunk, vagyis másodfajú hibát követünk el.
Effect size 2 nagy csoportja
csoportok közti különbségek (d-család)
kapcsolat mértéke (r-család)
Hatásnagyság r-családja
r = Pearson-féle korrelációs együttható: -1 és 1 között helyezkedik el, az előjele nem lényeges
-r < .10 => elhanyagolható
-.10 - .30 => gyenge hatás
-.30 – .50 => közepes hatás
-.50 < r => nagy hatás
Hatásnagyság d-családja
d = Cohen-féle d érték: +- végtelen között helyezkedik el
-r < .20 => elhanyagolható
-.20 => gyenge hatás
-.50 => közepes hatás
-.80 => nagy hatás
Milyen százalékot számítunk a statisztikai erőnél?
80%-ot
Ha a populációban egy hatás jelen van, azt 80%-os valószínűséggel képesek leszünk kimutatni (~ 80% az esélye, hogy nem követjük el a másodfajú hibát).
Mi befolyásolja a statisztikai erőt?
Hatásnagyság (effect size)
Zaj
Elemszám
Szignifikancia szint
Hogyan befolyásolja a hatásnagyság a statisztikai erőt?
Hatásnagyság: minél nagyobb a hatás, annál könnyebb lesz kimutatni, annál kisebb lesz a másodfajú hiba valószínűsége, és annál nagyobb lesz a statisztikai erő
- Zaj nagysága: minél zajosabb a vizsgálat, annál nehezebb kimutatni a hatásokat, annál nagyobb lesz a másodfajú hiba valószínűsége, és annál kisebb lesz a statisztikai erő
=> Jól megválasztott kísérleti elrendezésekkel és jól specifikált populációkkal a zaj mértékét lehet csökkenteni
Hogyan befolyásolja az elemszám a statisztikai erőt?
minél több fővel vesszük fel a kísérletet, annál valószínűbben lesz szignifikáns bármely hipotézistesztelő próba eredménye
=> Ha elég nagy az elemszám, akkor akár egy gyenge hatás is könnyen kimutatható
=> Minél nagyobb az elemszám, annál kisebb hatás is szignifikáns lesz
Hogyan befolyásolja a szignifikancia-szint a statisztikai erőt?
(elsőfajú hiba valószínűsége): ha ezzel megengedőbbek vagyunk (pl. 5% helyett 10%), akkor egyrészt nő a statisztikai erő, másrészt nő az elsőfajúhiba valószínűsége is
Erőelemzések 2 nagy típusa:
post hoc
a priori
A priori erőelemzés
még a kutatás tervezési szakaszában próbálunk egy intelligens tippet találni arra vonatkozóan, hogy mégis hány fővel lenne érdemes felvenni a kísérletet, hogy elég nagy legyen az erőnk
Post hoc erőelemzés
utólag megnézzük, hogy mennyi erőnk volt adott elemszám és adott hatásnagyság esetén (vagyis mekkora esélyünk volt rá egyáltalán, hogy a hatásunk szignifikánsnak mutatkozzon)