STV4022

5.0(2)
studied byStudied by 20 people
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
Card Sorting

1/73

flashcard set

Earn XP

Description and Tags

Study Analytics
Name
Mastery
Learn
Test
Matching
Spaced

No study sessions yet.

74 Terms

1
New cards
Standardavvik
Det gjennomsnittelige avviket til gjennomsnittet.

Et mÄl pÄ spredning som som sier noe om graden av variasjon i en enkelt variabel. Standardavviket er pÄ samme skala som variabelen, som gjÞr den lettere Ä tolke enn for eksempel variansen.
2
New cards
Standardfeil
Standardavviket til utvalgsfordelingen til en estimator.

Analytisk: standardavvik / kvadratroten av N

Man kan finne standardfeil gjennom simuleringer ogsÄ, for eksempel gjennom en bootstrapsimulering. Eller gjennom bayesianske simuleringer som stan_glm i R.
3
New cards
Konfidensintervall
OmrÄdet i utvalgsfordelingen som vi mener mest sannsynlig inneholder den sanne verdien.
4
New cards
Estimator
En estimator kan defineres som en regel for Ă„ komme frem til et parameterestimat. For eksempel er gjennomsnittet til et utvalg en estimator for populasjonens gjennomsnitt.

"Vi estimerer for Ă„ forsĂžke Ă„ lĂŠre om et ukjent populasjons-parameter"


Utvalgsfordelingen til estimatoren = fordelingen av estimater som vi ville fÄtt dersom vi trakk en uendelig mengde utvalg og brukte estimatoren pÄ hvert av dem.

Vi estimerer alltid med mer eller mindre usikkerhet, ettersom vi ikke vet den nĂžyaktige verdien til populasjons-parameteret. Men vi kan regne ut konfidensintervall for en estimators utvalgsfordeling. Med 95% sikkerhet er populasjons-parameteret to standardavvik pluss/minus fra estimatet.
5
New cards
Normalfordelingen
En kontinuerlig sannsynlighetsfordeling som er formet som en bjelle - kalles ofte "gaussian curve". Nyttig pÄ grunn av sentralgrenseteoremet som sier at modellen nÊrmer seg en normalfordeling jo stÞrre N er.

Gjennomsnitt, median og typetall ligger i midten av fordelingen. Kurven blir bredere jo lenger vekk fra sentraltendensen observasjonene er / jo stÞrre standardavviket er. Bred kurve viser altsÄ til mindre presis modell.
6
New cards
Logaritme
Logaritmen er tallet som grunntallet mÄ opphÞyes i for Ä fÄ det aktuelle tallet.

Naturlig logaritme: har grunntall 2.7
7
New cards
Sigma (residual)
Sigma viser til residualenes standardavvik.

Tolkes som et mÄl pÄ den UFORKLARTE variasjonen i dataene.
8
New cards
Kontinuerlige verdier vs. Kategoriske verdier
Kontinuerlige verdier er nummererte verdier, mens diskrete verdier er kategoriske verdier
9
New cards
Sentraltendens
Gjennomsnitt: sensitiv for uteliggere

Median: mer robust for uteliggere

Modus: observasjonen det er flest av
10
New cards
Populasjonsparameter
Den sanne verdien: for eksempel et gjennomsnitt for hele befolkningen
11
New cards
Hvordan velge riktig estimator?
Man velger den estimatoren som er forventingsrett, effektiv og konsistent
12
New cards
Forventningsrett estimator
Forventningsskjevhet beskriver systematiske skjevheter, mÄlt ved:

Hvor mye gjennomsnittet av utvalgsfordelingen avviker fra den sanne parameteren. Hvis estimatoren er forventningsrett er gjennomsnittet av fordelingen lik den sanne parameteren. Da gjenstÄr bare eventuelle tilfeldig feil.

En forventingsrett estimator er en estimator som ikke systematisk over- eller underestimerer. AltsÄ at estimatene ikke er skjeve den ene eller andre veien, men er riktig i gjennomsnitt og forventning.

Ettersom vi alltid estimerer med mer eller mindre usikkerhet, vil estimatene alltid differere litt fra den sanne parameterverdien.
13
New cards
Effektiv estimator
En effektiv estimator har en utvalgsfordeling med minst mulig varians / lavt standardavvik.
Varians beskriver spredningen av utvalgsfordelingen, altsÄ:
"hvor store tilfeldige feil medfĂžrer estimatoren?"

Effektivitet mÄ sees i sammenheng med forventingsrett estimator, man kan danne en estimator med nÊrmest ingen varians, men der forventningsskjevheten er hÞy, noe som ikke er ideelt(feks, dataene ble samlet pÄ en mÄte som gjorde utvalget skjevt, sÄ nÄ er fordelingen forventingsskjev, samtidig passer modellen godt med dataene og man har lav varians).
PĂ„ den andre siden kan en smule med forventningsskjevhet vĂŠre en ok pris Ă„ betale for en stor reduksjon i varians.
14
New cards
Konsistent estimator og Asymptotisk estimator
Egenskaper som er sanne nÄr utvalgsstÞrrelsen bli stor / uendelig. For et veldig stort utvalg er estimatoren i praksis forventningsrett og effektiv, da mean squared error nÊrmer seg 0 jo stÞrre N man har. Da er estimatoren en konsistent estimator av den sanne verdien

Asymptotisk: sentralgrenseteoremet
15
New cards
Root Mean Squared Error (kvadratisk gjennomsnitt)
RMSE kan brukes til Ă„ sammenligne forholdet mellom effektivitet og forventningsretthet for en estimator.

Hvis vi ikke synes den ene typen feilen er verre enn den andre kan vi velge den estimatoren som har lavest RMSE.
16
New cards
Monte Carlo simuleringer
kan brukes for Ă„ evaluere asymptotiske kalkuleringe
17
New cards
Alternativ hypotese
Hypotesen med utgangspunkt i mistanken vÄr
18
New cards
Nullhypotese
Hypotesen som avskriver mistanken vÄr (den vi forsÞker Ä "nulle" i en frekventisk klassisk hypotesetest)
19
New cards
Type-I feil
Å dþmme en uskyldig --> Å forkaste en sann nullhypotese

SignifikansnivÄet er sannsynlighet for type-I feil
20
New cards
Type-II feil
Å ikke forkaste en usann nullhypotese.

HĂžyere utvalgsstĂžrrelse typisk reduserer sannsynligheten for type II-feil.

POWER, hĂžy power = mindre sannsynlighet for en type-II feil
21
New cards
Type-M feil (magnitude)
Å overdrive stĂžrrelsen pĂ„ en effekt/sammenheng / nĂ„r omfanget av en estimert effekt differerer betydelig fra den sanne verdien.

"Statistisk signifikans filteret" Þker sjansen for type-M feil, da kravet om signifikante resultater for publisering fÞrer til overestiemrte effekter, ettersom man mÄ ha 2*standardfeil fra estimatet som ikke krysser 0 for Ä fÄ signifikant resultat. Da vil resultater emd stÞrre SE ogsÄ fÞre til at man mÄ ha stÞrre estimater - uansett hvor ubetydelig sammenhengen egentlig er.
22
New cards
Type-S feil (sign)
NÄr tegnet til en effekt gÄr motsatt vei av den sanne effekten
23
New cards
Svakheter ved signifikanstesting
Fundamentalt problem med type-1 og 2 feil:

- I mange tilfeller i sv tror vi aldri at nullhypotesen er sann: feks, endring av en lov vil alltid fÞre til NOE endring, sÄ hypotesen om at loven fÞrer til 0 endring gir ikke mening.

Har egentlig ingen praktisk betydning - Å unnlate Ă„ avvise en nullhypotese betyr ikke at vi aksepterer nullhypotesen.
avvise en nullhypotese betyr ikke at den alternative hypotesen er riktig da det kan vĂŠre mange andre alt. forklaringer som egnt er riktige.

Man trenger:
- overbevisende teori
- nye tester
- gjennomgang av alternative forkalrnger
24
New cards
Signifikans
Prosenttall som angir usikkerhet.

Hvis et 95%-konfidensintervall ikke inneholder 0, er estimatet signifikant pÄ 5% nivÄ i en to-sidig test

Ô + - 2*SE(Ô)
25
New cards
Tosidig hypotesetest
Tester hvorvidt begge sider av en datafordeling er stĂžrre eller mindre enn fordelingen
26
New cards
Ensidig hypotesetest
Tester hvorvidt estimatoren er stĂžrre eller midnre enn parameterestimatet
27
New cards
P-hacking
Å leke rundt med signifikanstesting til et gitt nivĂ„ er nĂ„dd:
eks, forskere fant fĂžlge Gelman lave p-verder i en medisinsk rĂžntgenundersĂžkelse av en dĂžd laks.

Hvordan unngÄ dette:

- formulere hypoteser pÄ forhÄnd
- ,mÞnstre fra data burde testes pÄ nytt
- analysere all data, ikke kun deler av data
- raportere alle sammenligninger og analyser
- gjĂžre all data offentlig
28
New cards
Simulering
Spesifisere en sannsynlighetsmodell, og generere data fra modellen.

Til forskjell fra estimering, der modell og data = gir parameterestimater
29
New cards
Hvorfor simulere?
1. MĂžnstre av tilfeldig variasjon
(plott over residualer fÄr frem ikke modellerte mÞnstre i dataene)

2. Utvalgsfordelingen til data og estimatorene vÄre (bootstrapping: estimere usikkerhet i estimatene vÄre, feks fÄr man bootstrappet Standardfeil)

3. Usikkerhet i prediksjoner fra estimerte modeller (posterior_epred for Ă„ illustrere usikkerhet i predikerte sannsynligheter i logistisk regresjon)
30
New cards
Byggeblokkene i simulering
- Sannsynlighetsfordeling (normalfordeling eller binomial fordeling)

- Set seed

- Funksjoner

- Subsetting

- If else statements

- Loops
31
New cards
Generere randomisert data
Feks: bruke Bernoulli-fordelingen - eneste parameter er sannsynligheten for suksess (p)

Eksempel R:

bernoulli_simulering
32
New cards
Set seed
R er avhengig av en RANDOM NUMBER GENERATOR for Ä generere data, rekkefÞlgen til dataene er bestemt av set seed. Hvis man bruker samme set seed vil man fÄ de samme tallene hver gang hvis du kjÞrer helt identisk simulering for eksempel flere ganger, hvis du der i mot kjÞrer en simulering flere ganger uten Ä ha satt seed vil du fÄ litt forskjellig output hver gang.
33
New cards
Funksjoner
Funksjoner tar input, gjennomfĂžrer en operasjon, og produserer output fra operasjonen.
34
New cards
Loops
Loops repeterer en operasjon for spesifiserte verdier. For eksempel kan man kjÞre en loop av tallene 1:10, og den vil printe tallene 1 til 10 pÄ rekke.
35
New cards
If else statements
Kan ofte leses intuitivt
36
New cards
Subsetting
Subsetting betyr Ă„ del en porsjon av dataene, som settes i squared brackets.
37
New cards
MAD SD
Kan tolkes som standardfeil, men bruken av median gjÞr mÄlet mer stabilt. De ganger MAD med 1.483 for Ä fÄ standardavviket av medianen.

I tolkningen av output fra stan_glm vil median og MAD SD fungere som henholdsvis punktestimat og standardfeil, men de fungerer som mer stabile oppsummeringer av smÄ utvalg eller skjeve utvalgsfordelinger - som gjerne kan oppstÄ under bruken av logistisk regresjon og GLM.
38
New cards
Bootstrapping (+fordeler og ulemper)
Gir en formening om hvordan datasettet ville sett ut dersom vi kunne ha samlet inn data pÄ nytt.

Bootstrapping er en form for resirkulering av datasett, der man kan anslÄ usikkerhet i parameterestimatene gjennom Ä fÄ bootstrappet standardfeil --> sÊrskilt nyttig dersom vi mangler mÄl pÄ usikkerhet.

FremgangmÄte:
Tilfeldig gjenvalg av utvalgets data der utbytting er "lov".

Man lager altsÄ nye datasett - og hver observasjon kan forekomme flere ganger i datasettet, mens noe kan bli utelatt helt.


Komplikasjoner:

- passer dÄrlig for tidsserie- og flernivÄdata

- funker dÄrlig dersom det originale utvalgte var skjevt og var preget av lav validitet (eks: ingen mÞrke stemte pÄ republikanere, men var bare ikke blitt spurt)
39
New cards
Hva er en regresjonsmodell
En mÄte Ä finne den regresjonslinjen som i stÞrst grad beskriver sammenhengen mellom X og Y. Ofte Þnsker man ogsÄ Ä kontrollere for / holde konstante andre prediktorer.

Kan friste til Ă„ trekke kausale slutninger der disse egnt ikke er til stedet.

Man mÄ da tolke outputen til modellen som sammenlikninger av enheter med ulike egenskaper.

NÄr X Þker med en skalaenhet, Þker Y med regrksjonskoeffisienten.
40
New cards
Konstantledd
Punktet hvor regresjonslinjen treffer Y-aksen. Verdien for konstantleddet representerer nÄr X = 0
41
New cards
Regresjonskoeffisient
Stigningstallet til regresjonslinjen. Endringen i Y nÄr X stiger med 1 skalenhet.
42
New cards
Tolkning multippel regresjon
Koffa = representerer gjennomsnittlig endring i Y, nÄr det skjer en skalaenhet Þkning i gjeldende X, mens alle andre X holdes konstante.

F.eks.: 1 representerer den estimerte gjennomsnittlige endringen i Y, per enhets Þkning i X1 nÄr X2, X3 og X4 holdes konstante.

Konstantledd = representerer Y nÄr alle X-ene er 0.

Har ofte ikke praktisk betydning.
Her kan man ofte sentrere konstantleddet for Ä oppnÄ et konstantledd med en mer praktisk tolkning.

Sigma/standardavviket til residualene:
Tolkes som et mÄl pÄ den UFORKLARTE variasjonen i dataene.

MAD SD:
Samtidig er ikke estimatet til regresjonskoeffisienten statistisk signifikant, ettersom MAD SD er sÄpass hÞy sammenlignet med regresjonskoeffisienten, at skalaen vil krysse null. Konfidensintervallet er bredt og inkluderer 0/krysser 0, det er med andre ord stor usikkerhet knyttet til estimatene.
43
New cards
Hva er samspill?
Samspill er nÄr sammenhengen mellom to variabler pÄvirkes av en tredje variabel.
Feks: stemmeandelen for demokratiske kandidater kan vÊre hÞyere nÄr inntektene er hÞye, men kun nÄr presidentenen er demokrat samtidig.
44
New cards
Tolk dette samspillet: 
I dette tilfellet vil det si at sammenhengen mellom Ă„ vĂŠre republikaner (gop) og Ă„ signere brevet 
(filisave), er avhengig av hvorvidt man stiller til valg i 2018 (running18).
Tolk dette samspillet:
I dette tilfellet vil det si at sammenhengen mellom Ă„ vĂŠre republikaner (gop) og Ă„ signere brevet
(filisave), er avhengig av hvorvidt man stiller til valg i 2018 (running18).
variabel*verdi pÄ variabel +- samspillskoeffisient * (verdi pÄ variabel i samspill * verdi pÄ variabel i samspill)

Konstantleddet:
den predikerte verdien nÄr alle uavhengige variabelen har verdien 0. AltsÄ en person som ikke er republikaner (gop=0), og ikke stiller til gjenvalg (run18=0), og ogsÄ har verdien 0 pÄ alle de andre variablene. AltsÄ vil predikert verdi for en person med 0 pÄ alle variablene vÊre 1.159

Samspillsleddet viser hvor mye hver av sammenhengene endrer seg nÄr vi Þker nivÄet pÄ den andre variabelen i samspillet med én skalaenhet.

Hvis man vil se pÄ sammenhengen mellom gop = 1 og utfallet:

0.120 * (1) - 2.51 *(1 * 0) = 0.120

0.120 (gop=1) – 2.51 *(gop=1*running18=0)

= 0.120


0.120 * (1) - 2.51 *(1 * 1) = 0.120

0.120 * (gop=1) – 2.51 *(gop=1*running18=1)

0.120 - 2.51

= - 2.39

Tilsvarende hvis man vil se pÄ sammenhengen mellom running18 = 1 og utfallet:

1.447 * (1) - 2.51 * (0 * 1)

1.447 * (running18=1) - 2.51 * (gop = 0 * running18=1)

= 1.447


1.447 * (1) - 2.51 * (1 * 1)

1.447 * (running18=1) - 2.51 * (gop = 1 * running18=1)

1.447 - 2.51

= - 1.063
45
New cards
Forutsetninger lineĂŠre regresjon
1. Validitet

2. Ytre validitet (representativitet)

3. Additivitet og lineĂŠr modell

4. Uavhengige residualer (fravĂŠr av autokorrelasjon)

5. Lik varians for residualene (homoskedastisitet)

6. Normalfordelte residualer: (omtrent kun relevant for prediksjon)
46
New cards
Problemet med autokorrelasjon (avhengige residualer)
Dersom residualene korrelerer kan standardfeilen bli overestimert (gir veldig mening hvis du bare tenker litt pÄ det, residualene er jo en slags feilkilde, eller avstanden fra estimert regresjonslinje og observasjonene, sÄ hvis de dobles oppÄ hverandre gir det stÞrre standardfeil), + sannsynligheten for tilfeldige feil i koffa Þker.

- oppfylles ikke for tidsseriedata, paneldata eller grupperte data (dette kan oppdages ved separate regresjonslinjer for hver gruppe for sistnevnte)
Dersom residualene korrelerer kan standardfeilen bli overestimert (gir veldig mening hvis du bare tenker litt pÄ det, residualene er jo en slags feilkilde, eller avstanden fra estimert regresjonslinje og observasjonene, sÄ hvis de dobles oppÄ hverandre gir det stÞrre standardfeil), + sannsynligheten for tilfeldige feil i koffa Þker. 

- oppfylles ikke for tidsseriedata, paneldata eller grupperte data (dette kan oppdages ved separate regresjonslinjer for hver gruppe for sistnevnte)
47
New cards
Plot av residualer over predikerte verdier - predict(mod1), resid(mod1)

1. mĂžnsteret er tilfeldig, og ingen residualer skiller seg kraftig ut

2. residualene danner et horisontalt bÄnd rundt null. Dette tilsier at variansen til residualene er relativt like (aka homoskedastisitet)
48
New cards
Prediktive tester - posterior_predict()
"Posterior predictive tests"
Hvis en modell er en god "fit", burde vi kunne bruke modellen til Ă„ generere data som i hĂžy grad ser ut som dataene vi har observert.

Vi bruker modellen til Ä generere data, for sÄ Ä sammenligne de nye dataene med faktisk observerte data.

To generate the data used for posterior predictive checks (PPCs) we simulate from the posterior predictive distribution. This is the distribution of the outcome variable implied by a model after using the observed data y (a vector of N outcome values) to update our beliefs about unknown model parameters Ξ.
49
New cards
Sammenligning, ikke effekt
knowt flashcard image
50
New cards
Multiplikativ vs. additiv
Additiv: En regresjonsmodell antar i utgangspunktet at sammenhenger er additive. Det vil at utfallsvariabelen (Y) kan skrives som en funksjon av typen:
Y = beta1 * X + beta2 * Z.
Additiv refererer her til pluss-tegnet i formelen. X og Z ganges med hver sin koeffisient og legges sÄ sammen.

Multiplikativ: kan f.eks. inkludere et samspill, slik at man fÄr en funksjon av denne typen:
Y = beta1 * X + beta2 * Z + beta3 * X * Z.
Her er X og Z ganget med hverandre i den siste delen av formelen. Det vil f.eks. si at sammenhengen mellom X og Y avhenger av verdiene pÄ Z.

Logtransformering vil gi en slags multiplikativ modell, fordi log(a*b) = log(a) + log(b).
51
New cards
Hvorfor transformere?
1. Forenkle tolkning av modeller
F.eks: endre skala, sentrere konstantledd til gjennomsnitt sÄ det blir mer forstÄelig, standardisering for Ä enklere kunne sammenligne koeffisienter.

2. Modellere sammenhenger slik at de blir ikke-lineĂŠre eller ikke-additive (at prediktorene faktisk interagerer med hverandre).
52
New cards
Sentrering, hvorfor?
Sentrere prediktorene sÄ det blir lettere Ä tolke konstantleddet, da blir feks konstantleddet gjennomsnittet til prediktoren(e)

Man tar for eksempel: prediktoren minus gjennomsnittet til prediktoren.

Man skifter dermed skalaen, men bevarer enheten - konsekvensen er at regresjonslinjen for prediktoren og utfallet ikke endrer seg, mens tolkningen av konstantleddet endrer seg.
53
New cards
Standardisering, hvorfor?
- Standardiserte koeffisienter reflekterer Þkninger pÄ ett standardavvik i X

- Standardisering gjÞr det enklere Ä sammenligne koeffisienter, fordi man fÄr de pÄ samme skala, nemlig standardavvik.

"NÄr X Þker med ett standardavvik, Þker Y med koeffisienten"

⚠ gir lite mening for binĂŠre variabler
- Standardiserte koeffisienter reflekterer Þkninger pÄ ett standardavvik i X

- Standardisering gjÞr det enklere Ä sammenligne koeffisienter, fordi man fÄr de pÄ samme skala, nemlig standardavvik.

"NÄr X Þker med ett standardavvik, Þker Y med koeffisienten"

⚠ gir lite mening for binĂŠre variabler
54
New cards
LineĂŠre vs. logistiske transformasjoner
LineĂŠre transformasjoner endrer ikke selve sammenhenger vi modellere, kun tolkningen av koeffisientene. Ikke-lineĂŠre transformasjoner endrer selve sammenhengen(e) vi modellerer.
55
New cards
Hvorfor logtransformere?
1. Utfall som alltid er stÞrre enn 0. Noen typer modeller ignorerer at utfallet for noen variabler alltid er stÞrre enn 0. Dersom man gjÞr en posterior_predictive test vil man gjerne observere at fordelingen til prediksjonene fra modellen ikke samsvarer godt nok med fordelingen pÄ Y. En mÄte Ä tilpasse modellen pÄ sÄ den i stÞrre grad samsvarer med fordelingen pÄ Y, er Ä logtransformere Y.

⚠ ikke like enkelt dersom utfallet ogsĂ„ kan vĂŠre akkurat 0, ettersom log-0 er udefinert, det vil si at en DIREKTE log-transformering av verdien 0 ikke er mulig.

2. Multiplikative sammenhenger (motsatte av additiv). Logtransformering tillater koeffisienter med multiplikativ tolkning. Sammenhengene mellom X og Y er ikke alltid additive, da bryter man i tillegg med en av forutsetningene for lineĂŠr regresjon. Dermed kan logtransformering vĂŠre gunstig.

3. Mer enkelt er logtransformering ofte anbefalt for skjeve data, ettersom logtransformering gjerne har effekten av Ä spre ut data som har klumpet seg, og pÄ den andre siden samle data som er veldig spredt - for eksempel til kun den ene siden av fordelingen.
Det er flere grunner til Ă„ ville gjĂžre dette:

- Det kan bidra til at dataene i stÞrre grad likner pÄ en normalfordeling, som kan vÊre gunstig dersom man gjennomfÞrer en statistisk analyse som forutsetter normalitet.

- Det kan bidra til Ä mÞte forutsetning om homoskedastisitet -altsÄ at residualene er like pÄ tvers av verdiene - for lineÊr regresjon

- Det kan ogsÄ bidra til Ä gjÞre et ikke-lineÊrt forhold, mer lineÊrt.
56
New cards
Tolkning av log Y
NÄ er tolkningen pÄ log-skala: feks inntekt og hÞyde

En skalaenhets/cm Þkning i x/hÞyde, korresponderer med en forskjell pÄ koffa i log-inntekt.

Hvis man vil ha utregningen i prosent:

2.7 opphĂžyd i koeffisienten, minus 1, ganger 100
57
New cards
Tolkning av log X

1 prosent Þkning i logX korresponderer med en forskjell pÄ koffa skalaenheter for Y.
58
New cards
Tolkning av log X og Y
1 prosent Þkning i X korresponderer med en forskjell pÄ koffa prosent for Y.

Log-log transformasjoner --> koffa kan tolkes som forventet proporsjonell forskjell i Y, per proporsjonelle forskjell i X - altsÄ prosent mot prosent.
59
New cards
kryssvalidering generelt
Ofte vil vi evaluere og sammenligne modeller uten Ä mÄtte vente pÄ nye data - i kryssvalidering bruker man deler av data fra modellen til Ä predikere, mens en annen del holdes utenfor og behandles som en proxy for fremtidige data.

Dette betyr ogsÄ at kryssvalidering gjÞr bukt med problemet med overestimering (overfitting?) som oppstÄr nÄr man bruker samme data for estimering OG evaluering.
60
New cards
LOO
Kryssvalidering (Leave One Out)

- utelate en observasjon av gangen

- bruke resten av dataene til Ă„ predikere den utelatte observasjonen

- gjenta til man har predikert for hver og en utelatt variabel

- bruke elpd til Ă„ vurdere hvor godt modellen predikerer

- jo stĂžrre elpd jo bedre!
61
New cards
Logistisk regresjon, hvorfor?
family = binomial(link = “logit”)

- lineÊre modeller er kontinuerlig og egner seg ikke bra for binÊre utfall, den logistiske der i mot passer ogsÄ for utfall som er mellom 1 og 0.

- det er teknisk mulig Ä implementere en lineÊr modell, men den vil da predikere observasjoner stÞrre en 1 og mindre enn 0, samt ofte ikke passe god med observasjonene som ikke nÞdvendigvis tilnÊrmer seg en rett linje lenger, da vil ogsÄ forutsetning om homoskedastisitet vÊre brutt ettersom residualene gjerne vil ha rimelig forskjellige stÞrrelser / avstand til regresjonslinjen.
62
New cards
Tolke logistisk regresjon uten predikerte sannsynligheter?
Logistisk regresjon oversetter fra den lineĂŠre formen, til sannsynligheten for et utfall.

- NÄ er koffa vanskelig Ä tolke fordi de er pÄ en logit-skala (endringer i log, ikke skalaenhet)

- Koffa vil avhenge av de andre prediktorene

Man kan tolke som odds, altsÄ sannsynligheten for at noe vil skje / sannsynligheten for at noe ikke skjer.

exp(coefficients(logmod1))
#eksponensiering av koffa gir relative forskjeller i odds, men er fortsatt ikke veldig intuitivt og tolke
"NÄr man Þker normnetwoods med 1, Þker oddsen med 14.5"
Logistisk regresjon oversetter fra den lineĂŠre formen, til sannsynligheten for et utfall. 

- NÄ er koffa vanskelig Ä tolke fordi de er pÄ en logit-skala (endringer i log, ikke skalaenhet)

-  Koffa vil avhenge av de andre prediktorene

Man kan tolke som odds, altsÄ sannsynligheten for at noe vil skje / sannsynligheten for at noe ikke skjer. 

 exp(coefficients(logmod1)) 
#eksponensiering av koffa gir relative forskjeller i odds, men er fortsatt ikke veldig intuitivt og tolke
"NÄr man Þker normnetwoods med 1, Þker oddsen med 14.5"
63
New cards
Tolke logistisk regresjon som predikerte sannsynligheter
-nÄ mÄ man tolke i sammenheng med de andre X-ene

-vi mÄ lage scenarier hvor verdiene holdes konstante (for eksempel pÄ median-verdien)

-OG simuleringer for Ă„ fange usikkerheten knyttet til prediksjonene
-nÄ mÄ man tolke i sammenheng med de andre X-ene

-vi mÄ lage scenarier hvor verdiene holdes konstante (for eksempel pÄ median-verdien)

-OG simuleringer for Ă„ fange usikkerheten knyttet til prediksjonene
64
New cards
GLM - 5 forutsetninger:
1. Utfallsvariabel Y

2. Prediktorer X, med sine koeffisienter ÎČ, som gir oss den lineĂŠre prediktoren XiÎČ

3. Link-funksjon. Mange forskjellige funksjoner som kobler den lineĂŠre X til Y

(for eksempel: Istedenfor Ä fÄ de pÄ samme skala som Y/utfallet, fÄr du det pÄ LOGIT-skala).

4. Fordeling: vi predikerer ikke utfallene perfekt, sÄ det vil vÊre noe variasjon rundt punktestimatene predikert av modellen, Y.

5. (av og til har vi andre tilleggs-parametere for Ä hÄndtere spesielle problemer som oppstÄr i noen type modeller)
65
New cards
Tellemodeller, Poisson vs. Negativ binomisk modell
- Poisson-modellen antar at variansen i predikert utfall er lik gjennomsnittet
- Ofte er variansen stÞrre enn gjennomsnittet, sÄ Poisson er ofte ikke realistisk for statsvitenskapelige data
- Prediksjonene fra poisson-modellen vil i sÄ fall passe dÄrlig med data


- negative binomiske modeller ligner Poisson, men fanger bedre opp “overdispersjon” (at variansen er stþrre enn gjennomsnittet)
-   	Poisson-modellen antar at variansen i predikert utfall er lik gjennomsnittet
-   	Ofte er variansen stÞrre enn gjennomsnittet, sÄ Poisson er ofte ikke realistisk for statsvitenskapelige data
-   	Prediksjonene fra poisson-modellen vil i sÄ fall passe dÄrlig med data


- negative binomiske modeller ligner Poisson, men fanger bedre opp “overdispersjon” (at variansen er stþrre enn gjennomsnittet)
66
New cards
Valg av glm styres av utfall:
knowt flashcard image
67
New cards
POWER, definisjon, og 3 antakelser for gjennomfĂžring
POWER er en designanalyse som kan gjennomfÞres for Ä komme frem til sannsynligheten for Ä fÄ et signifikant resultat, dersom man gjennomfÞrer en potensiell undersÞkelse.

Man gjĂžr tre antakelser som danner basisen for simuleringen.

1. StÞrrelse pÄ sammenhengen (antakelse om hvor stor eller liten en sammenheng er)
2. SignifikansnivÄ
3. UtvalgsstĂžrrelse

Gelman viser til signifikant funn i 80% av simuleringene som en slags terskel - da basert pÄ hva forskningsinstitutter godkjenner.
POWER er en designanalyse som kan gjennomfÞres for Ä komme frem til sannsynligheten for Ä fÄ et signifikant resultat, dersom man gjennomfÞrer en potensiell undersÞkelse.

Man gjĂžr tre antakelser som danner basisen for simuleringen.

1. StÞrrelse pÄ sammenhengen (antakelse om hvor stor eller liten en sammenheng er)
2. SignifikansnivÄ
3. UtvalgsstĂžrrelse 

Gelman viser til signifikant funn i 80% av simuleringene som en slags terskel - da basert pÄ hva forskningsinstitutter godkjenner.
68
New cards
NA - hva kan vi gjĂžre?
knowt flashcard image
69
New cards
ATE og ATT for kausale slutninger
ATE - Average treatment effect

Gjennomsnittsforskjellen mellom de som har fÄtt behandling og de i kontrollgruppe.

ATT - Average treatment effect on the treated

Gjennomsnittsforskjellen for de som har fÄtt behandling
70
New cards
Ignorerbarhet
Gjennom Ä fordele behandling tilfeldig, sÞrger man for at de potensielle utfallene er selvstendige fra fordeling av behandling. PÄ denne mÄten vil den gjennomsnittelige forskjellen i utfall for kontroll- og behandlingsgruppe kunne tilegnes behandlingen. Denne antakelsen kalles formelt for ignorerbarhet.

Gullstandard er eksperiement, for andre forskningsdesign handler det om Ă„ finne forskningsdesign som er "as if"-randomiserte.

trusler:
- bakenforliggende variabler, sĂŠrskilt uobserverte ubakenforliggende variabler, da vi ikke kan kontrollere for disse.

ikke trusler:
mellomliggende variabler, ettersom de kommer etter X, viktig Ă„ ikke kontrollere for mellmliggende variabler da dette vil blokkere ut deler av mekanismen som kobler X til Y
71
New cards
SUTVA - stable unit treatment value assumption
De potensielle utfallene til en enhet pÄvirkes ikke av at andre enheter ogsÄ fÄr behandlingen.

Denne antakelsen vil for eksempel ikke holde i en undersÞkelse om hvorvidt det Ä rekke opp hÄnden i forelesning har en positiv effekt pÄ eksamenskarakter, ettersom andre studenter kan lÊre mer av at studenten stiller spÞrsmÄl.
72
New cards
Eksperiment
- den tilfeldige fordelingen av behandling gjĂžr at ignorerbarhetsantakelsen holder i gjennomsnitt

- troverdig at forskjellene vi estimerer ikke pÄvirkes av bakenforliggende variabler

- vi kan estimere Ärsakssammenheng mellom X og Y, selv om selvfÞlgelig masse andre faktorer kan forklare variasjon i utfallene, og feks Þkologisk validitet kan vÊre et problem for generalisering, vil vi fortsatt kunne estimere den direkte Ärsakssammenhengen mellom X og Y.
73
New cards
Regresjon vs. matching for ignorerbarhetantakelsen
Felles problem for matching og regresjon:

Kan ikke kontrollere for uobserverbare bakenforliggende variabler - uten et veldig sterkt forskningsdesign vil det dermed alltid vĂŠre sannsynlig at man har utelatt variabler som bidrar til Ă„ forklare variasjonen i en sammenheng i stĂžrre eller mindre grad.

Vi inkluderer de bakenforliggende variablene i regresjonsmodellen


Regresjon:
Vi vet kanskje ikke hvilken transformasjon av X vi skal velge, eller om vi skal ha interaksjoner mellom de ulike kontrollvariablene

PÄ deler av fordelingen for X finnes det kanskje ikke enheter med begge verdiene vi er ute etter, f eks bÄde D = 1 og D = 0.

Resultatene vÄre kan avhenge av tilfeldige valg om hvordan vi spesifiserte modellen.


Matching:
For hver enhet med feks D = 1, finner vi en enhet med D = 0 som er mest mulig lik pÄ X, for sÄ Ä matche disse.

Enheter som ikke har en “match” fjernes fra datasettet.

Reduserer problemet tilknyttet vilkÄrlige valg nÄr vi spesifiiserer regresjonsmodellene,

Problemer:
MEN vi vil miste en del observasjoner dersom det er mange observasjoner som ikke har en match.
74
New cards
Hva bestemmer om en modell er en dÄrlig "fit"
En modell som er en dÄrlig fit har gjerne uvanlig store residualer eller spredningsmÄl, altsÄ nÄr det er stor forskjell mellom modellens predikerte verdier fra dataene og observerte verdier fra dataene. Dersom observasjonene differerer kraftig fra modellen, feks regresjonslinjen, er det en dÄrlig fit.

Sigma:

den sier noe om hvor mye uforklart variasjon det er rundt regresjonslinjen

Det er ofte begrenset hva man kan lese ut av disse verdiene, men man kan eventuelt sammenligne dem med standardavviket for de observerte verdiene pÄ utfallsvariabelen: Om sigma er mye lavere, tilsier det at modellen forklarer/predikerer en betydelig del av variasjonen i dataene.