People Analytics

0.0(0)
studied byStudied by 2 people
call kaiCall Kai
learnLearn
examPractice Test
spaced repetitionSpaced Repetition
heart puzzleMatch
flashcardsFlashcards
GameKnowt Play
Card Sorting

1/106

encourage image

There's no tags or description

Looks like no tags are added yet.

Last updated 3:41 PM on 5/31/23
Name
Mastery
Learn
Test
Matching
Spaced
Call with Kai

No analytics yet

Send a link to your students to track their progress

107 Terms

1
New cards
P-verdi
Sannsynligheten for at nullhypotesen er sann. (1 – p-verdien) er sannsynlighet for at den alternative hypotesen er sann. En lav p-verdi viser at resultatene er gjentakbare. En lav p-verdi viser at effekten er stor eller at resultatet har teoretisk, klinisk eller praktisk betydning.
2
New cards
Replikasjon
Å gjenskape et eksperiment
3
New cards
Problemer med nullhypotesetesting og p-verdi
* Alt-eller-ingenting-tenkning (.0499 vs. .0501?)
* p-verdier avhenger av utvalgsstørrelse
* enorme utvalg: det meste statistisk signifikant
* små utvalg: store og viktige effekter er ikke-signifikante
* lav statistisk styrke → økt sannsynlighet for falske positive
* forskerens egne intensjoner og organisering kan klusse til hypotesetestingingsprosessen - endrer betydningen av p-verdiene
* Publiseringsbias: signifikante funn publiseres hyppigere
* Skrivebordsskuffproblemet (file drawer problem)
* P-hacking
* HARKing
4
New cards
Publiseringsbias

1. Positiv publiseringsbias
2. Selektiv rapportering av resultater
5
New cards
Skrivebordsskuffproblemet (file drawer problem)
\
refererer til en skjevhet i vitenskapelig forskning der studier med ikke-signifikante eller tvetydige resultater er mindre sannsynlig å bli publisert eller rapportert sammenlignet med studier med signifikante eller positive resultater. Dette skyldes at forskere, tidsskriftredaktører og utgivere prioriterer å publisere studier med statistisk signifikante funn, samtidig som de neglisjerer studier som viser null eller ikke-signifikante resultater.
6
New cards
P-hacking
P-hacking, også kjent som data mining eller cherry-picking, refererer til praksisen med å manipulere analyser og resultater i forskning for å oppnå statistisk signifikante funn eller ønskede resultater. Det innebærer å gjøre flere analyser eller manipulere dataene på forskjellige måter til man finner en statistisk signifikant sammenheng eller effekt, uten å ta hensyn til opprinnelige forskningshypoteser eller metodeplaner.

P-hacking involverer ofte følgende praksiser:


1. Utvelgelse av variabler: Forskeren velger selektivt hvilke variabler som skal inkluderes i analysen basert på resultatene, og ekskluderer de som ikke gir ønskede resultater.
2. Utvelgelse av datapunkter: Forskeren fjerner eller ekskluderer datapunkter som avviker fra forventede mønstre eller som påvirker de ønskede resultatene negativt.
3. Utføring av flere analyser: Forskeren utfører flere analyser med forskjellige variabler, datapunkter eller analyseteknikker, og presenterer bare de analysene som gir ønskede resultater.
4. Datajustering: Forskeren gjør endringer i dataene, for eksempel ved å fjerne uteliggere eller endre metoder for måling eller beregning, for å oppnå ønskede resultater.
7
New cards
HARKing
HARKing (Hypothesizing After the Results are Known)


1. Forskeren gjennomfører en studie uten å ha en klar forskningshypotese på forhånd. Dataene samles inn uten en spesifikk teoretisk eller empirisk begrunnelse.
2. Etter å ha analysert dataene og sett resultatene, utleder forskeren en forskningshypotese eller en sammenheng som er i samsvar med funnene.
3. Den nye hypotesen presenteres som om den ble generert før datainnsamlingen, noe som gir inntrykk av at det var en a priori hypotese.
8
New cards
Prinsipper for gode business-eksperimenter (Davenport, 2009)

1. Test og lær - Organisasjoner kan få en kultur for testing, ved at ledelsen etterspør evidens, og at det er insentiver for testing.
2. Intuisjon - Ikke *alt* kan testes, og det er gunstig å bruke intuisjonen (spesielt når de har mye erfaring allerede på temaet)
3. Passende for markedsføring - ikke like bra når man skal endre selve businessmodellen (game-changing avgjørelser) 
4. Randomisering, kontrollgruppe, poweranalyse for utvalgsstørrelse
5. Grant: «The surprising value of obvious insights” – det vi lærer av et eksperiment trenger ikke være kontraintuitivt eller sjokkerende – selv «åpenbare» funn kan være verdifulle og forankrer resultater i en organisasjon.
9
New cards
Effektstørrelse
Standardisert mål på størrelsen av en effekt, og sier altså noe om hvor sterk effekten er.

* Pearsons r
* Cohens d
* Korrelasjonsstørrelse
10
New cards
Cohens *d*
forskjellen mellom to gjennomsnitt, delt på standardavviket og brukes til å måle forskjellen mellom gjennomsnittene til to grupper. Den gir et mål på hvor stor den standardiserte forskjellen er mellom gruppene, og gir informasjon om hvor klinisk eller praktisk signifikant forskjellen er.
11
New cards
Cohens retningslinjer
* 0,2 = liten effektstørrelse
* 0,5 = moderat effektstørrelse.
* 0,8 eller høyere = stor effektstørrelse.
12
New cards
Pearsons *r*
styrken på den lineære sammenhengen mellom to variabler
13
New cards
Pearsons r retningslinjer
* .1 = liten effekt (forklarer 1%)
* .3 = medium effekt (forklarer 9%)
* .5 = stor effekt (forklarer 25%)

*NB: r^2 * 100 viser forklart varians i prosent*
14
New cards
Statistisk styrke
Sannsynligheten for å finne en effekt med en test, gitt at effekten eksisterer i populasjonen. Statistisk styrke = 1 - beta, og bestemmes av effektstørrelsen, antall observasjoner og alfa-nivået.
15
New cards
A priori styrkeberegninger:
Når vi bruker alfanivået og vår beste *gjetning* av effektstørrelsen til å beregne hvor mange observasjoner vi trenger for å oppnå en gitt statistisk styrke, *før* vi samler inn data.
16
New cards
Post-hoc styrkeberegninger
Når vi *har* kjørt analysene våre, og kan beregne statistisk styrke for testene våre basert på alfanivået, utvalgsstørrelsen og effektstørrelsen
17
New cards
Statistisk signifikans
hvis man kan konkludere med at den observerte sammenhengen, forskjellen eller endringen man har funnet, faktisk er en reell sammenheng, forskjell eller endring
18
New cards
Variabel
noe som varierer mellom ulike personer/objekter, eller for samme person/objekt over tid - eksempelvis kjønn, alder, inntekt, intelligens, holdninger, ledererfaring
19
New cards
Uavhengig variabel (UV)
Variabel som predikerer/har en effekt på et annet element, og kalles også årsaksvariabel eller prediktor. Kan være manipulert (i eksperimentelle design)
20
New cards
Avhengig variabel
Virkningsvariabel/utfallsvariabel, altså variabelen som blir påvirket av uavhengig variabel. Dette er alltid en målt variabel
21
New cards
Skjult variabel
en faktor som påvirker den sammenhengen vi ser på, men som vi ikke har tatt høyde for.
22
New cards
Kategorisk variabel
**nominal + ordinal;** har mulige verdier, som svarer til grupper eller kategorier. Eks: kjønn, skimerker, karakterer, osv. Man faller i en av gruppene.
23
New cards
Kontinuerlig/kvantitativ variabel
**intervall + ratio;** har mulige verdier, som svarer til mengden eller antallet av en størrelse. Svarer på spørsmålet: hvor mye eller hvor mange? Eks; treningstimer i uka, alder, årstall.
24
New cards
Reliabilitet
sier noe om hvor pålitelig, konsistent og stabilt noe er
25
New cards
Validitet
sier noe om hvor gyldig forskningen er, og om vi har målt det vi har tenkt til å måle
26
New cards
Populasjon
hele “befolkningen” som er relevant, eks. “alle kunder”, “kvinner med ledererfaring”, o.l.
27
New cards
Utvalg
den gruppen vi har tilgang til å spørre
28
New cards
Generalisering
å bruke utvalget til å si noe om populasjonen
29
New cards
To tilnærminger til data

1. Observasjonelle/korrelasjonelle metoder
2. Eksperimentelle metoder (testing)
30
New cards
Korrelasjonell/observasjonell metode
Når dataene er observert, uten at vi har manipulert de underliggende betingelsene for observasjonene. Metoden undersøker om det finnes **sammenhenger mellom ulike variabler**. Vi ser en sammenheng, men vi vet ikke hvordan sammenhengen oppstår. Eksempelvis har vi data på medarbeidertilfredshet fra hele bedriften, og undersøker om det er noen forskjell i tilfredshet avhengig av ledernes erfaring/kommunikasjonsstil
31
New cards
Styrker ved korrelasjonell/observasjonell metode
Vi observerer/måler noe uten å forsøke å påvirke det - kan gi høyere økologisk validitet (mer realisme), i tillegg til å være mer økonomisk gunstig
32
New cards
Svakheter ved korrelasjonell/observasjonell metode
Vanskelig å si noe om årsaksforhold
33
New cards
Eksperimentell metode
Når dataene er et resultat av aktiv manipulering med underliggende betingelser, som kan påvirke observasjonene. Forsøker å **etablere en årsak ved å sammenligne situasjoner** (betingelser) hvor en foreslått årsak er tilstede eller ikke. Her brukes ofte kontrollgruppe
34
New cards
Scenariostudie
Brukes til å utforske og analysere alternative fremtidige situasjoner eller scenarioer. Målet med et scenariostudie er å identifisere og forstå mulige utviklinger, trender og utfordringer som kan påvirke en virksomhet, en bransje eller samfunnet som helhet.
35
New cards
Fordeler ved scenariostudie
* **Eksperimentell kontroll**: kan enkelt maniupluere faktoren man er opptatt av (eks. motiv) og kan ha kontroll over en del konfunderende variabler
* **Bekvemmelighet**: kan være raskere og enklere å gjennomføre enn feltstudier
36
New cards
Ulemper ved scenariostudie
**Økologisk validitet**: Er egentlig dette realistisk? Sier folks reaksjoner på en kort tekst om “…” deres ekte tanker i den virkelige verden?
37
New cards
Korrelasjon
effektstørrelse/et mål på den lineære sammenhengen mellom to kontinuerlige variabler, og går fra -1 til 1, der 0 = ingen sammenheng. Det er viktig å se på *retning (+/-), effektstørrelse (styrke)* og *signifikans* når vi snakker om korrelasjon. Vi bør bruke korrelasjonsanalyse når vi har med to **kontinuerlige variabler** å gjøre

* positiv korrelasjon: jo høyere score av A, jo høyere av score B
* negativ korrelasjon: jo høyere score av A, jo lavere score av B
38
New cards
Hva er liten, medium og stor effekt av korrelasjon?
* liten: +/- .1
* medium: +/- .3
* stor: +/- .5
39
New cards
Kausalitet
årsakssammenheng, forholdet mellom årsak og virkning - må ikke blandes med korrelasjon da kausalitet er avhengig av at en ting *fører til* noe annet
40
New cards
Systematisk variasjon
variasjon som skyldes uavhengig variabel - vi ønsker å fange opp mest mulig systematisk variasjon når vi forsker
41
New cards
Usystematisk variasjon
variasjon som skyldes ukjente/irrelevante faktorer - optimalt å holde denne variasjonen lavest mulig
42
New cards
Mellomgruppe-design/Between-subjects
Design som manipulerer en uavhengig variabel hvor manipulasjonen innføres for **forskjellige** grupper hvor de to gjennomsnittene kommer fra grupper bestående av ulike deltakere og hver deltaker bare er med i én gruppe
43
New cards
Randomisering i mellom-gruppe
tilfeldig fordeling til grupper - minimerer sjansen for at ulike grupper er forskjellige med tanke på irrelevante variabler
44
New cards
Innengruppe-design/Within-subjects
Samme gruppe eksponeres for ulike betingelser i eksperimentet - hver deltaker er med i hver betingelse og vi dermed har data fra de samme deltakerne på to tidspunkt/i to betingelser
45
New cards
Randomisering i innen-gruppe
tilfeldig rekkefølge (motbalansere)
46
New cards
Fordeler med innengruppe-design vs. mellomgruppe-design
* mindre støy
* bedre effekt/støy ratio
* høyere statistisk styrke
* med økonomisk
* krever lavere N for å oppnå tilfredsstillende statistisk styrke
47
New cards
Typetall (mode)
modus, er den verdien som forekommer mest frekvent og forteller oss på mange måter hva som er mest "vanlig".
48
New cards
Median
den midterste verdien når alle verdier settes i rekkefølge fra lav til høy
49
New cards
Gjennomsnitt (mean)
summen av alle skårer delt på antall
50
New cards
Variasjonsbredde (range)
differansen mellom laveste og høyeste verdi
51
New cards
Kvartildifferanse (interquartile range)
verdiene som skiller sorterte data i fire like stor grupper (kvartiler); Q1-Q3 (25. - 75. persentil)
52
New cards
Gjennomsnittsavvik (mean deviation)
gjennomsnittlig absolutt avvik fra gjennomsnittet
53
New cards
Standardavvik (standard deviation, SD)
kvadratroten av variansen, og kan tolkes som gjennomsnittlig avvik fra gjennomsnittet. Standardavvik sier noe om hvor godt gjennomsnittsverdien representerer dataene våre. Gjennomsnitt +/- std.avvik tilsvarer ca. 68% av utvalget
54
New cards
Residual
det som er igjen/restene, det vi bommer med utenfor prediksjonen vår
55
New cards
Varians
summen av kvadrerte gjennomsnittsavvik delt på antall frihetsgrader (n-1)
56
New cards
Homogen varians
relativ lik varians i grupper som sammenliknes/relativ lik spredning rundt gjennomsnittet i ulike grupper
57
New cards
Standardfeil (standard error)
standardavviket til en samplingdistribusjon og representerer spredningen i en distribusjon av estimater som f.eks. gjennomsnittet. Verdien gir en indikasjon på hvor nøyaktig gjennomsnittsverdien til utvalget representerer den sanne gjennomsnittsverdien i den underliggende populasjonen
58
New cards
Normalfordelt data
en tetthetskurve som er unimodal og symmetrisk
59
New cards
Samvariasjon
hvordan to størrelser samvarierer. Mellom to variable kan det være positiv, negativ eller ingen samvariasjon.
60
New cards
NHST
Nullhypotese signifikanstesting - vi tar utgangspunkt i at nullhypotesen er sann
61
New cards
Nullhypotese (H0)
det motsatte av alternativhypotesen - “det er *ingen* forskjell/sammenheng”
62
New cards
Alternativhypotese (H1/HA)
forskningshypotesen, vår aktuelle hypotese - “det *er* en forskjell/sammenheng)
63
New cards
Type 1-feil
når man forkaster en sann nullhypotese, det vil si at man konkluderer med at det er en signifikant effekt eller sammenheng, når det i virkeligheten ikke er noen slik effekt eller sammenheng i populasjonen. Sannsynligheten for type 1-feil kalles *alfa*
64
New cards
Alfa-nivå (α)
definerer signifikansnivået eller sannsynligheten for å gjøre en type 1-feil. Typisk setter vi alfa-nivået til 0.05 eller 0.01, altså indikerer vi at det er 5% eller 1& sjanse for å benekte en sann nullhypotese
65
New cards
Type 2-feil
når man ikke forkaster en falsk nullhypotese, det vil si at man feiler i å oppdage en reell effekt eller sammenheng som faktisk finnes i populasjonen. Sannsynligheten for å begå en type 2-feil kalles beta (β) og type 2-feil er et resultat av ulike faktorer, inkludert størrelsen på den reelle effekten, utvalgsstørrelsen og valget av signifikansnivå. Jo mindre effekten er, jo større utvalget er, eller jo lavere signifikansnivå man bruker, desto større blir sannsynligheten for å begå en type 2-feil.
66
New cards
Beta (β)
sannsynligheten for å begå en type 2-feil, det vil si å ikke oppdage en reell effekt eller sammenheng når den faktisk eksisterer. Jo lavere beta er, jo høyere er styrken til testen og jo bedre er evnen til å oppdage en reell effekt eller sammenheng.
67
New cards
En-halet t-test
kan brukes når vi har en *rettet* (directional) hypotese, eks: de som bruker appen gjør det bedre enn kontrollgruppen
68
New cards
To-halet t-test
for urettete (non-directional) hypoteser, eks: det er forskjell på de to gruppene, eksperimentgruppen gjør det bedre ELLER dårligere enn kontrollgruppen
69
New cards
Kovarians
gjennomsnittlige kryss-produktavviket og sier noe om personer som avviker fra gjennomsnittet på variabel X, også avviker fra gjennomsnittet i positiv eller negativ retning på variabel Y?
70
New cards
R Square
Forklart varians
71
New cards
R
72
New cards
R square change
73
New cards
3 misforståelser knyttet til p-verdier

1. Et signifikant resultat betyr at effekten/sammenhengen er viktig og av stor praktisk betydning
2. Et ikke-signifikant resultat betyr at nullhypotesen er sann
3. Et signifikant resultat betyr at nullhypotesen er sann
74
New cards
Hvordan kan en unngå problemer som ofte dukker opp i kvantitativ forskning?
* Trening i fortolkning av p-verdier
* Pre-registrering og open science
* Fokusere på effektstørrelser (og ikke bare p-verdier)
* Mer aksept for ikke-sginifikante resultater
* Meta-analyser: enkeltstudier er ikke nok, må se på effekter over flere studier samlet
* Bayensianske analyser: en annen tilnærming for å tallfeste støtten for og imot en hypotese
75
New cards
F-statistikk
Sammenliger hvor mye modellen forklarer vs. hvor mye den ikke forklarer. Jo høyere f-verdi, jo mer forklarer modellen. En signifikant F-test i ANOVA forteller oss bare at minst ett gjennomsnitt er forskjellig fra minst et annet - men sier ikke hvilke gjennomsnitt som er forskjellige
76
New cards
Hva er liten, medium og stor effekt av f?
* Liten: .10
* Medium: .25
* Stor: .40
77
New cards
To tilnærminger for å finne ut hvilke grupper som er forskjellig

1. A-priori
2. Post hoc tester
78
New cards
Post hoc test
Sammenligner alle de ulike gjennomsnittene for å finne ut **hvor** forskjellen ligger.
79
New cards
ANOVA
Analysis of Variance: brukes når det er **flere** enn to grupper som skal sammenlignes
80
New cards
Enveis-ANOVA
Analyse som brukes når vi har **én kontinuerlig avhengig variabel** og **én kategorisk uavhengig variabel (med flere nivåer),** og ser om det finnes statistisk signifikante forskjeller mellom gruppene

* Innengruppe (repeated measures ANOVA)
* Mellomgruppe
81
New cards
Faktoriell ANOVA
Analyse som brukes når vi har å gjøre med minst **to uavhengige kategoriske variabler** og **én avhengig kontinuerlig variabel**. Eksempelvis er UV kjønn og yrke, mens AV er tilfredshet (1-7). 
82
New cards
Blandet ANOVA
Analyse som brukes når vi har **minst to uavhengige variabler** som **kategoriske** og på **nominalt** målenivå. I tillegg må **minst én av de uavhengige variablene** være målt på **innen-gruppe** nivå, altså med repeterte målinger fra de samme deltakerne. **Minst én av de uavhengige variabelene** må være målt på **mellom-gruppe**, altså med ulike deltakere i ulike grupper. 
83
New cards
Sfærisitet
Refererer til en forutsetning om at variansen i en målevariabel er lik på tvers av alle nivåene eller kategoriene til en uavhengig variabel. Med andre ord betyr sfærisitet at variansen er homogen eller jevn i alle betingelser eller grupper som sammenlignes
84
New cards
Faktorielle design
Et faktorielt design er en eksperimentell design som innebærer at to eller flere uavhengige variabler manipuleres samtidig for å undersøke deres individuelle og interaksjonseffekter på en avhengig variabel. I et faktorielt design kombineres ulike nivåer av hver uavhengig variabel for å skape ulike betingelser eller grupper i studien.
85
New cards
Positiv interaksjon
86
New cards
Idea illustration
Ønsker å forklare info av typen prosess eller rammeverk, og passer seg i presentasjoner eller læresettinger. Datavisualiseringen krever at du kan design og redigering, og hovedformålet er å lære, forenkle og forklare.
87
New cards
Idea Generation
Kompleks og udefinert datavisualisering som typisk brukes i idemyldringsfasen. Her kreves teambuilding og fasilitering, og formålet er ofte problemløsning, utforskning og innovasjon.
88
New cards
Visual discovery
Datadrevet og utforskende datavisualisering som ofte fremstiller kompleks og dynamisk info. Typisk benyttes den i jobbsetting, testing eller analyse, når vi skal utforske trender og mønstre i datasettene våre. Visual discovery inkluderer plott av tidsserier og undersøkeser av kompliserte datamønstre
89
New cards
Everyday Dataviz
Datadrevet og fortellende datavisualisering som ofte inneholder enkle figurer som scatterplott, linjediagram, søylediagrammer, osv. - som formidler et budskap om dataene. Dette er visualiseringen vi skal bruke, og er vanlig i presentasjoner og vitenskapelige artikler.
90
New cards
3 prinsipper om datavisualisering (Schwabish, 2014)

1. Show the data - dataene er den viktigste komponenten i en graf, og bør presenteres på en så tydelig måte som mulig
2. Reduce the clutter - fjern alle unødvendige og forstyrrende elementer
3. Inegrate the text and the data - figurer bør inneholde nok informasjon til å kunne forstås noenlunde uten at man er avhengig av å sjekke opp i hovedkonteksten
91
New cards
Teori
Et sett med prinsipper/antakelser som forklarer et fenomen
92
New cards
Hypotese
en foreslått forklaring på et fenomen
93
New cards
Prediksjon
en operasjonalisering av en hypotese, som gjør at vi kan teste en hypotese (hvis hypotesen stemmer, vil vi forvente at når v gjør x, så vil vi kunne se y)
94
New cards
Datainnsamling
måling og eventuelt manipulasjon av variabler for å teste en prediksjon
95
New cards
Dataanalyse
undersøker om en hypotese kan falsifiseres, eller om vi finner støtte for hypotesen
96
New cards
Målenivå
* Nominal
* Ordinal
* Intervall
* Ratio (Forholdstall)
97
New cards
Nominalnivå
“navn” for kategoriske data (kjønn, ulike følelser, nasjonalitet, type stilling) og kan ikke rangeres logisk
98
New cards
Ordinalnivå
"orden", rangering av data, men sier ikke noe om avstand mellom posisjoner (ung, middeladrende, eldre; prestasjon -1., 2., 3. plass)
99
New cards
Intervallnivå
informasjon om grad av forskjell mellom tall på en skala (temperatur Celsius, IQ, politisk holdning)
100
New cards
Forholdstallsnivå
likt som intervall, men her finnes naturlig nullpunkt (alder, lengde, vekt, osv.)