1/113
Looks like no tags are added yet.
Linjär regressionsanalys
metod som används för att analysera sambandet mellan x och y. Målet är att undersöka och förstå hur förändringar i den oberoende variabeln påverkar den beroende variabeln
Mediators (medierande variabler)
är mellanliggande faktorer som hjälper oss att förstå varför två andra saker är kopplade. De fungerar som förklaringar för samband mellan olika variabler. Till exempel kan de förklara varför att dricka kaffe är kopplat till att vara vaken på natten genom att visa att kaffe påverkar en sak som i sin tur påverkar hur trött du känner dig. Så, de hjälper oss att förstå de "hur" och "varför" bakom samband mellan variabler
Moderators (modererande variabler)
faktorer som påverkar styrkan eller riktningen av sambandet mellan två andra variabler. Till exempel, om du undersöker sambandet mellan studietid och examensresultat och upptäcker att ålder fungerar som en moderator, innebär det att ålder påverkar hur mycket studietid påverkar examensresultatet. Om en ung student och en äldre student har olika samband mellan studietid och examensresultat, så fungerar ålder som en moderator i den här situationen. Det hjälper oss att förstå att sambandet inte är konstant över alla åldrar, och ålder ändrar sambandet mellan studietid och examensresultat.
Vad kan vi göra med multivariat regressionsanalys?
Se mönster: Med MRA kan vi gissa/predicera y med hjälp av ett flertal x
Utesluta alternativa förklaringar: Med MRA kan vi analysera det separata inflytandet av varje x på y (med statistisk kontroll för övriga x); med statistisk kontroll utesluter vi alternativa förklaringar
Identifiera falska samband: Med MRA kan vi specificera korrekta samband: vi kan identifiera falska samband, indirekta effekter och interaktioner (jfr mediators – moderators) → medierande variabler och modererande variabler
T-värde (t-ratio)
ett statistiskt mått som används för att bedöma om skillnaden mellan medelvärden i två grupper är signifikant eller om den beror på slumpmässiga variationer. Det används vanligtvis i samband med t-test och regressionsanalys. Ju högre t-värdet är, desto mer signifikant är skillnaden.
t-värdet → ett kritiskt värde, om t-värdet är 1,96 är p-värdet 0,05
När det kritiska värdet är 1,96 är p-värdet 0,05
Ju högre t-värdet är desto mindre blir p-värdet
Varför vill vi ha statistisk kontroll?
för att säkerställa att resultat är tillförlitliga och korrekta. Görs genom att hantera och minska påverkan av faktorer som kan förvränga resultaten eller göra dem osäkra. Gör att man förstår samband bättre och att dra slutsatser som kan generaliseras till en större grupp. Man kontrollerar och hantera eventuella felkällor och påverkande faktorer i en studie för att få mer trovärdiga och användbara resultat.
Falska samband
när vi drar felaktiga slutsatser om orsakssamband mellan händelser eller variabler. Det kan hända när vi tror att två saker är kopplade på ett visst sätt, men egentligen beror sambandet på något annat, som till exempel en slump eller en okänd faktor
:)
:)
Linjens intercept
visar det värde som enligt linjen svarar mot x = 0. Det startvärde som linjen har på y-axeln innan den börjar stiga eller sjunka beroende på linjens lutning.
Ostandardiserad regressionskoefficient/lutningskoefficient/riktningskoefficien
anger linjens lutning och anger den förändring i y som följer av en enhets ökning i x.
R² (determinationskoefficient)
Hur många procent av variansen i den beroende variabeln (y) som kan förklaras med hjälp av de oberoende variablerna (x, x2, x3 osv). R2 stiger alltid vid fler x - om stor skillnad bör Adjusted. R2 rapporteras; om n < 200 bör Adjusted. R2 rapporteras
Bivariat linjär regressionsanalys
metod som används för att undersöka sambandet mellan två variabler. Den är "bivariat" eftersom den fokuserar på förhållandet mellan två variabler åt gången. I denna typ av analys har du en oberoende variabel (förklaringsvariabel) och en beroende variabel (utfallsvariabel).
Målet med bivariat linjär regressionsanalys är att undersöka om det finns ett linjärt samband mellan de två variablerna. Med andra ord, försöker du förstå om förändringar i den oberoende variabeln påverkar den beroende variabeln och hur mycket.
Analysen resulterar i en linje, kallad regressionslinjen, som bäst passar datan och beskriver sambandet mellan variablerna
Dummy-variabel
enkel typ av variabel som används för att representera ja/nej eller olika kategorier i statistiska analyser. Den tar vanligtvis värdena 0 eller 1 och hjälper forskare att inkludera icke-numerisk information i sina analyser.
EXEMPEL: En vanlig användning av en dummy-variabel är inom regressionsanalys. Tänk dig att du vill undersöka hur kön påverkar lönen för anställda. Eftersom kön inte är en numerisk variabel, använder du en dummy-variabel för att representera den.
Du kan skapa en dummy-variabel kallad "Kön" och tilldela den värdet 1 för manliga anställda och 0 för kvinnliga anställda
Referenskategori/jämförelsekategori
är en term som används i samband med dummy-variabler och statistisk analys, särskilt inom regressionsanalys. För att förstå effekten av olika kategorier, väljer man en av dummy-variablerna som referenskategori.
Standardiserade regressionskoefficienter (Beta-koefficient)
För att veta vilken som har störst betydelse behöver du den standardiserade koefficienten. Varierar mellan +/- 1, vi bryr oss inte så mycket om ifall den är positiv eller negativ. Vi bryr oss om hur hög siffran. Högst absolut värde = störst betydelse. (B; beta) = tolka på samma sätt som Pearson’s r, ±1.
Predicerade värden
de värden som en analys eller modell räknar ut som de mest sannolika resultaten baserat på tillgänglig information och tidigare data. Det är som att göra en kvalificerad gissning om vad som kommer att hända baserat på vad vi vet hittills
Sambandsanalys
en metod inom statistik och forskning som används för att undersöka och förstå relationer och samband mellan olika variabler. Den syftar till att avgöra om det finns något samband eller mönster mellan variabler och om detta samband är statistiskt signifikant.
Skillnad mellan standardiserad regressionskoefficient och ostandardiserad regressionskoefficient
Ostandardiserade koefficienter mäter förändringar i de specifika enheterna för den beroende variabeln, medan standardiserade koefficienter mäter förändringar i enheter av standardavvikelse.
Ostandardiserade koefficienter används när man vill förstå den konkreta påverkan och förändringen i enheter för den beroende variabeln.
Standardiserade koefficienter används när man vill jämföra påverkan av olika variabler och göra dem enhetligt jämförbara oavsett de specifika enheterna för variablerna.
Korstabell
Att jämföra proportioner/procenttal: är en tabell som används inom statistik för att visa sambandet mellan två kategoriska variabler. Den visar hur ofta olika kombinationer av värden av de två variablerna inträffar.
Variansanalys (ANOVA)
Att jämföra medelvärden. är en statistisk metod som används för att jämföra medelvärdena mellan tre eller fler grupper för att avgöra om det finns några signifikanta skillnader mellan dem. ANOVA jämför variationen inom grupperna med variationen mellan grupperna för att dra slutsatser om eventuella skillnader i medelvärden.
T-test
Att jämföra medelvärden. är en statistisk metod som används för att avgöra om det finns en signifikant skillnad mellan medelvärdena för två grupper. Det är särskilt användbart när datan är kontinuerlig och följer en normalfördelning. T-testet är baserat på en t-fördelning och används för att testa hypotesen att skillnaden mellan medelvärdena för två grupper är statistiskt signifikant.
Korrelationskoefficient
Korrelationskoefficienten (r) är ett nummer mellan -1 och 1 som visar hur starkt två saker hänger ihop:
r=1: Perfekt positivt samband. Om en ökar, ökar den andra också.
r=−1: Perfekt negativt samband. Om en ökar, minskar den andra.
r=0: Ingen tydlig relation.
Ju närmare r är 1 eller -1, desto starkare är sambandet. Om r är nära 0 finns det ingen linjär relation mellan variablerna.
Positivt samband
när x ökar så ökar också y. Kurvan lutar uppåt
Negativt samband
när x ökar så minskar y. Kurvan lutar neråt
Nollsamband
Det finns inget samband mellan x och y. Kurvan har ingen lutning
Nollhypotes
ett antagande inom statistik och forskning som säger att det inte finns någon signifikant effekt, samband eller skillnad i det som studeras.
Riktad mothypotes
Hypotesen vi tror på. Är en typ av statistisk hypotes som specificerar en förväntad riktning för effekten eller skillnaden i studien. Det innebär att forskaren inte bara är intresserad av att veta om det finns någon skillnad eller effekt, utan också i vilken riktning den förväntas vara.
Regelbundenhet/samvariation
hänvisar till graden av relation eller samband mellan två eller flera variabler. Det beskriver hur mycket variation i en variabel kan förklaras eller förutsägas av variation i en annan variabel. När två variabler samvarierar, förändringar i en variabel tenderar att korrelera med förändringar i den andra variabeln.
Signifikanstest
metod som används för att avgöra om de resultat du har fått i en studie är verkliga eller bara ett resultat av slumpen. Hjälper dig att bestämma om dina resultat är meningsfulla eller bara en tillfällighet.
Hypotestest
är en central del av statistiken där forskare eller analytiker använder statistiska metoder för att fatta beslut om nollhypotesen
Epsilon
om man har minst 200 observationer (n > 200) där procentdifferensen är minst 10% då blir det statistiskt signifikant = vi kan förkasta nollhypotesen
P-värde
en siffra som hjälper dig att förstå hur troligt det är att dina forskningsresultat är en tillfällighet. P-värdet är mycket lågt, är det osannolikt att resultaten är slumpmässiga. P-värdet är högt, kan resultaten vara slumpmässiga och inte viktiga.
:)
:)
Regressionskoefficient
nummer som visar hur mycket en oberoende variabel påverkar en beroende variabel. Om det är ett positivt värde ökar den beroende variabeln när den oberoende ökar och vid ett negativt värde minskar den värdet för den beroende variabeln när värdet för den oberoende ökar. Värdet ger indikation på sambandets styrka.
Signifikansvärde
samma som P-värdet = sannolikheten att få ett värde som det observerade testvärdet (eller högre) trots att nollhypotesen är sann.
Signifikansnivå(er)
En förutbestämd gräns som används för att bedöma om resultaten av en statistisk test är signifikanta; om p-värdet är mindre än eller lika med α, så avvisas nollhypotesen och resultaten betraktas som statistiskt signifikanta. Styr risken för att begå ett felaktigt beslut om att avvisa eller inte avvisa nollhypotesen.
Nivåerna (α)
0.05 → 95% säkerhet
0.01 → 99% säkerhet
0.001 → 99,9% säkerhet
Chi2-test
är en statistisk metod som används för att undersöka om det finns ett signifikant samband mellan två kategoriska variabler. Det är särskilt användbart när variablerna är nominala eller ordinala och när man vill undersöka om fördelningen av observationer i en korsfrekvenstabell är slumpmässig eller om det finns ett verkligt mönster.
Bestäm signifikansnivån (alfa): Välj en signifikansnivå (vanligtvis 0,05) för att avgöra om resultatet är statistiskt signifikant.
Jämför med kritisk Chi2-värde: Jämför beräknad Chi2-teststatistik med det kritiska Chi2-värdet vid den valda signifikansnivån och antalet frihetsgrader.
Fatta beslut: Om den beräknade Chi2-värdet är större än det kritiska Chi2-värdet förkastas nollhypotesen, och det anses finnas en signifikant skillnad mellan variablerna.
CHI2 TAR FRAM P-värde + SIGNIFIKANSTEST
*
indikerar statistisk signifikans i tabeller uträknade i program
Sig.
p-värde i tabeller för variansanalys
Value
kritiskt värde i en tabell
Pearson’s r
ANVÄNDS FÖR ATT IDENTIFIERA SAMVARIATION MELLAN TVÅ VARIABLER
ett mått på hur två kontinuerliga variabler är relaterade. Det varierar mellan -1 (perfekt negativ relation) och 1 (perfekt positiv relation), med 0 som ingen relation. Det används för att mäta linjära samband och kräver vissa antaganden om datan.
EN KORRELATIONSKOEFFICIENT SOM TAR FRAM HUR STARK LUTNINGEN ÄR
Korrelationsanalys
en statistisk metod som används för att utvärdera och mäta sambandet mellan två eller flera variabler
Spridningsdiagram
är en bild av datapunkter i ett tvådimensionellt diagram. Varje punkt representerar en observation och visar hur två variabler förhåller sig till varandra. Om punkterna följer ett mönster, kan det indikera ett samband mellan variablerna. Om de är spridda, kan det vara mindre samband. Det är ett användbart verktyg för att visualisera och undersöka relationer i data.
Regressionslinje
en rät linje på en graf som försöker förklara hur två saker är relaterade. Den används för att göra förutsägelser om en sak baserat på den andra. Om linjen går uppåt, ökar saker tillsammans, och om den går nedåt, minskar de tillsammans. Regressionslinjen hjälper oss att förstå och förutsäga samband mellan saker.
Homogenvarians
betyder helt enkelt att variansen (spridningen) av data i olika grupper eller kategorier är ungefär lika. Det är ett viktigt antagande inom vissa statistiska metoder för att säkerställa korrekta resultat. Om varianserna är mycket olika kan det påverka tolkningen av statistiska tester.
Om p-värdet i en homogenvariansanalys är 0,05 eller högre är variansen inom de olika kategorierna ungefär lika
:)
:)
:)
:)
:)
:)
:)
:)
Chi2-test
Chi2-test är ett statistiskt verktyg för att se om det finns ett signifikant samband mellan två kategoriska variabler.
Frekvensfördelning: Frekvensfördelning är en sammanställning eller uppställning av hur ofta olika värden eller kategorier förekommer i en datamängd. Det används för att organisera och visa fördelningen av observationer i en uppsättning data. För varje kategori räknar du antalet observationer eller förekomster. Detta kallas frekvensen för den kategorin.
P-värde
Sannolikheten att få stickprovsresultat lika eller mer extrema än de observerade, om nollhypotesen är sann.
:)
:)
Tvärsnittsdata
Tvärsnittsdata, även kallat tvärsnittsundersökning, representerar information insamlad vid en enda given tidpunkt eller under en specifik tidsperiod.
Index
I statistik och dataanalys kan "index" användas för att representera förhållandet mellan två värden eller mätningar. Det kan vara i form av en procentuell förändring, ett relativt värde eller något annat som jämför en mätning med en referenspunkt.
Statistisk felmarginal
Statistisk felmarginal (statistical margin of error) är ett begrepp som används inom statistiken för att ange osäkerheten eller intervallet av möjliga fel i en statistisk undersökning. Felmarginalen indikerar hur mycket resultatet från undersökningen kan variera från det verkliga värdet i hela populationen på grund av slumpmässiga avvikelser i urvalet. Felmarginalen uttrycks vanligtvis som ett intervall runt den uppskattade statistiska parameteren.
Konfidensnivå
Konfidensnivå, inom statistiken, är den sannolikhet som används för att uttrycka hur mycket vi kan lita på att ett beräknat intervall innehåller det verkliga värdet av den statistiska parameteren. Konfidensnivån representeras oftast som en procentandel och används för att skapa konfidensintervall.
:)
:)
Normalfördelning
Normalfördelning är en särskild typ av sannolikhetsfördelning som ser ut som en klockkurva. Den är känd för sin symmetri och beskrivs av två huvudparametrar: medelvärdet (där kurvan är högst) och standardavvikelsen (som mäter hur spridda värdena är runt medelvärdet). När man tittar på en normalfördelning: Cirka 68% av värdena ligger inom ett standardavvikelse från medelvärdet. Cirka 95% av värdena ligger inom två standardavvikelser från medelvärdet. Cirka 99.7% av värdena ligger inom tre standardavvikelser från medelvärdet.
Oberoende variabel
En variabel som antas påverka eller leda till förändringar i en annan variabel. Den oberoende variabeln är den som forskaren manipulerar eller kontrollerar för att observera dess inverkan på den beroende variabeln. X
Beroende variabel
Den faktor som förändras till följd av förändringar i den oberoende variabeln. Den beror på den oberoende variabeln. En förändring i den beroende variabeln påverkar inte den oberoende variabeln. Y
Kvalitativa variabler
kategoriska variabler som representerar olika kategorier eller kvaliteter snarare än mätbara mängder. De används vanligtvis för att beskriva egenskaper eller kategorier som inte har en naturlig numerisk ordning. Två typer: nominal- och ordinalskala.
Kvantitativa variabler
numeriska variabler, är variabler inom statistiken som representerar mätbara kvantiteter eller numeriska värden. De kan beskriva olika typer av kvantitativa egenskaper eller attribut och används ofta för att göra matematiska beräkningar och statistiska analyser. Två typer: intervall- och kvotskala
:)
:)
Observationsenhet
En observationsenhet är den enhet, individ eller entitet som studeras eller observeras inom forskning eller dataanalys.
Nominalskala
Värdena går inte att rangordna
Kvalitativt skilda svarsalternativ = det går inte att säga vad som är högst/lägst.
Ordinalskala
Variabelns värden går att rangordna enligt hur mycket man instämmer/tar avstånd till påståendet men det går inte att säga matematiskt sätt att det är samma avstånd mellan värdena. Dvs instämmer starkt och instämmer ligger närmare varandra än “varken eller”. Så fort forskaren måste tolka avståndet är det en ordinalskala.
Intervallskala
Värdena kan rangordnas, avståndet är lika stort men det saknas en nollpunkt.
Man kan säga att detta också är en ordinalskala.
Man tänker att det är lika avstånd mellan numren, alltså att det finns ekvidistans, man benämner polerna men inte mittenalternativen, då kan man analysera det som en intervallskala.
Kvotskala
Värdena kan rangordnas, ekvidistans, meningsfull nollpunkt.
Meningsfull = 0 betyder 0 och inget annat.
T.ex. att respondenten anger hur många timmar den arbetar (skriver själv in antal). Antalet timmar går att rangordna, det är lika avstånd mellan timmarna och det finns en meningsfull nollpunkt (noll timmar)
På den här typen av variabler kan man använda multiplikation/division på ett meningsfullt sätt.
Fördelning
kan vara jämn om variabelvärdena fördelas jämnt, symmetriskt runt sin mittpunkt eller vara sned med vissa värden som är mer förekommande än andra.
:)
:)
Typvärde (mode)
det värde eller de värden som förekommer mest frekvent inom en datamängd. Det är ett mått på central tendens som används för att identifiera vilka värden som är mest typiska eller populära inom en datamängd.
medianvärde (median)
mittenvärde som delar datamängden i två lika stora delar när datan är sorterad i stigande ordning
Medelvärde (mean)/ Aritmetiskt medelvärde
summan av alla datavärden delat med antalet värden.
Spridning
anger hur väl samlade observationerna är kring fördelningens tyngdpunkt. Standardavvikelse som mäter observationens genomsnittliga avvikelse från medelvärdet
Standardavvikelse
för att mäta spridningen eller variationen av datavärden inom en datamängd. Det ger information om hur datavärdena är utspridda kring det aritmetiska medelvärdet. En hög standardavvikelse indikerar att datavärdena är spridda långt från medelvärdet, medan en låg standardavvikelse tyder på att datavärdena är nära medelvärdet.
Frekvenstabell
används för att sammanställa och visa förekomsten eller antalet gånger ett visst datavärde eller en kategori uppträder inom en datamängd.
Centralmått
anger tyngdpunkten eller centraltendensen i fördelningen, t.ex. medelvärde, median eller typvärde.
Cirkeldiagram
tänk PAJ: används för att representera datans fördelning genom att dela in den i sektorer som tillsammans bildar en cirkel. Varje sektor representerar en kategori eller kategorier och visar hur stor andel av hela datamängden som varje kategori utgör.
Stolpdiagram/stapeldiagram
Ett stolpdiagram är en typ av diagram där data representeras med lodräta staplar. Varje stapel representerar en kategori och höjden på stapeln visar datavärdet för den kategorin. Diagrammet används för att jämföra data för olika kategorier och kan innehålla färger, rubriker och beskrivningar för bättre förståelse.
Histogram
Kan användas för att se fördelningen mellan olika variabler. Det går att visuellt se var tyngdpunkten ligger.
Lådagram (boxplot)
används för att visa datans fördelning, variation och eventuella uteliggare (outliers).
Varians
Mäter spridningen av datavärdena från medelvärdet.
Spridningsmått
Varians, standardavvikelse, kvartiler, intervall
Kvartiler
Delar datan i fyra lika delar, där medianen är den andra kvartilen.
:)
:)
Likertskala
skattningsskala som används för att mäta åsikter, attityder och graden av överensstämmelse eller avvikelse med ett påstående eller en påstådd åsikt. Består av flera påståenden och svarspersonen uppmanas att ange sin nivå av överensstämmelse eller avvikelse med varje påstående. Svaren kan numeriskt kodas, till exempel från 1 till 5, så att de kan användas i kvantitativ analys.
Variationsvidd/bredd
Variationsvidd, eller bredd, är ett mått inom statistik som mäter hur stor skillnaden är mellan det högsta och lägsta datavärdet inom en datamängd. Det ger en uppfattning om hur mycket datavärdena sprider sig över datamängden. Ju större variationsvidd, desto större är spridningen av datavärdena, och ju mindre variationsvidd, desto mer lika är datavärdena varandra. Du räknar ut det genom att ta max - min = variationsvidd
Percentiler
används för att förstå var en viss datapunkt ligger i förhållande till hela datamängden och ger information om dess relativa position. När du talar om percentiler refererar du ofta till procentandelar av datamängden. Till exempel, om du säger att någon är i den 90:e percentilen för en viss testresultat, innebär det att den personens resultat är högre än 90% av resultaten inom gruppen.
Varianskoffecient
Varianskoefficienten (också känd som relativ standardavvikelse) är ett statistiskt mått som används för att mäta spridningen av datan i förhållande till dess medelvärde. Det är ett mått på variation som är standardiserat för att möjliggöra jämförelser mellan olika datamängder, särskilt när datamängderna har olika medelvärden och enheter. Variationskoefficienten beräknas enligt följande formel:
Variationskoefficient = (Standardavvikelse / Medelvärde) * 100
Där:
Standardavvikelse är ett mått på datans spridning.
Medelvärdet är det aritmetiska medelvärdet av datamängden.
Multiplikationen med 100 är för att uttrycka resultatet som en procentandel.
Kritiska värden (z-värden)
Kritiska värden, särskilt när vi pratar om normalfördelning och z-värden, är de gränsvärden där man tar beslut om att förkasta eller inte förkasta en statistisk nollhypotes. Kritiska värden används i samband med signifikansnivåer för att bestämma om resultaten från en statistisk testning är signifikanta eller inte. I normalfördelningen används z-värden för att mäta hur långt ifrån medelvärdet ett visst värde är i termer av standardavvikelser. Kritiska z-värden är de z-värden där vi sätter gränsen för när vi förkastar nollhypotesen. Vanligtvis använder man en signifikansnivå på 0.05, vilket innebär att vi är villiga att acceptera 5% risk för att felaktigt förkasta en sann nollhypotes. För en tvåsidig testning kan de kritiska z-värdena vara -1.96 och +1.96 (där cirka 95% av fördelningen ligger inom detta intervall).
Medelfel
Medelfel (standard error på engelska) är ett mått på osäkerheten i beräkningen av ett statistiskt mått, särskilt medelvärdet, med hjälp av stickprovsdata. Medelfelet indikerar hur mycket medelvärdet av en stickprovsfördelning kan förväntas variera från medelvärdet av hela populationen. Medelfelet är relaterat till standardavvikelsen i populationen. Om standardavvikelsen är hög, kommer medelfelet att vara högt, vilket indikerar att vår uppskattning är mindre pålitlig.
Valid
giltiga svar
Missing
bortfall (giltiga eller ej inkomna svar)
Percent
hela procenten för svaren, även de ogiltiga
Valid percent
endast giltiga svar
Internt bortfall
ogiltiga svar eller uteblivet svar på enskilda frågor
Externt bortfall
personer i urvalet har fått ex. enkäten till sig men ej svarat
Cumulative percent
den kumulativa procenten adderar all valid procent
:)
:)