(LNU) Statistikbegrepp för dugga: Ekologi och vetenskaplig metodik

0.0(0)

Studied by 2 people

Call Kai

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Knowt Play

Card Sorting

1/64

Earn XP

Description and Tags

Inför duggan, ifrån Moodle, vissa förklaringar kan vara lite kassa

Last updated 3:46 PM on 3/31/26

Name	Mastery	Learn	Test	Matching	Spaced	Call with Kai

No analytics yet

Send a link to your students to track their progress

65 Terms

New cards

ANOVA

Analysis of variance, ett “utökat t-test”. Ett statistiskt test som jämför flera olika stickprov med med fler än två faktornivåer representerade i datasetet. Testet antar följande:

Oberoende data/observationer
Normalfördelade residualer (ingen tratt)
Lika varianser, får inte finnas ett samband mellan medelvärde och varians
INTE NÖDVÄNDIGT, men är bra med balanserad data

New cards

Antaganden för statistiska tester

Olika test kommer att ha olika antaganden för att värderna de returnernar ska anses sanningsenliga

New cards

Boxplot / lådogram

Ett diagram som visar om datasetet är normalfördelat. Visar median, övre kvartil, nedre kvartil och dessa representerar 25%, 50% och 75% av alla mätvärden. Är som sagt bra för att hitta normalfördelning bland värden och att jämföra varianser mellan olika testgrupper

New cards

Diagnostiska plottar

Plottar som hjälper en att se om antaganden såsom normalfördelade residualer och icke s-formade Q-Q plottar stämmer

New cards

Diskreta data (intervalldata)

Numerisk data som antar värden inom intervaller, Exempelvis antalet barn i en familj. Du kan inte ha 2.754 barn i en familj om du inte räknat ut ett medelvärde på många familjer

New cards

Estimering

En ungefärlig beräkning eller bedömning som baseras på den information man fått genom sina studier och statistiska tester

New cards

Faktor

En kategorisk förklaringsvariabel, exempelvis art eller skogstyp

New cards

Faktornivåer

“Underarter” till faktorn. Exempelvis björk och gran som faktornivåer till skogstyp, eller blåmes och talgoxe som faktornivåer till art

New cards

Falsifikation

Att motbevisa en vetenskaplig teori. En vetenskaplig teori måste ha en möjlighet att bli motbevisad för att anses vara vetenskaplig. Teorin måste inte vara falsk, utan argumentationen runt resultatet måste vara uppbyggd på ett sätt som gör att om empiriska observationer tyder på något annat kan teorin förkastas

New cards

Frihetsgrader (d.f)

Matematisk förklaring: Antalet mätvärden i ett stickprov -1. Exempelvis 8 mätvärden, då är ____ 7

Allmän förklaring: Antalet mätvärden i ett stickprov minus 1. Detta är för att (exempelvis) om vi vet vikten på alla elefanter förutom en, och den totala vikten för alla elefanter, är den sista elefantens vikt given

New cards

F-värde (F-kvot)

Teststorhet vid ANOVA, ett stort _-värde gör att mycket av datan kan förklaras

New cards

Förklaringsvariabel

En variabel som möjligen kan förklara varför en annan variabel skiljer sig åt, ‘prediktor’. Exempelvis arten av djur påverkar vikten, eller kalkning av sjöar påverkar pH-värdet.

New cards

Histogram

Ett diagram som delar upp mätvärden i olika kategorier, exempelvis ålder 1-2, 2-3 osv. och gör sedan staplar inom varje kategori som visar antalet mätvärden inom varje kategori. Ska helst visa på en normalfördelad kurva men kräver ofta väldigt stora stickprov för att uppnå det

New cards

Hypotes

Den minsta logiska enheten i en vetenskaplig undersökning. Ett antagande om hur man tror det man studerar hänger ihop, skrivs innan studien påbörjas. Måste vara möjlig att pröva

“En ___ kan aldrig bevisas, bara förkastas” - Karl Popper

New cards

Hypotesprövning

En statistisk metod för att testa om en hypotes är trovärdig baserat på den data man samlat in. Detta görs genom statistiska tester som kan ge ett svar kring om arbetshypotesen eller nollhypotesen bör förkastas. Det kan endast göras ett uttalande kring statistiskt stöd till en eller en annan hypotes om p<0.05, eftersom det oftast är den procentuella chansen att göra ett typ-1 fel som accepteras

New cards

Hypotetisk-deduktiva metoden

Ett systesm som hjälper en att kolla ifall ens hypotes stämmer.

Observation, man ser något intressant i naturen och
Förklaring, man försöker förstå varför det man observerat uppstår
a) Hypotes, alternativa hypoteser
b) Prediktioner, ställs up med hjälp av hypoteser
c) Statistisk nollhypotes, neutralisera arbetshypotesen
Designa försök, hur tar jag reda på detta på bästa sätt?
‘Experiment’, samla in data, anteckna beteenden
Dra slutsats, statistik kommer in här och hjälper analysera datan
Rapportera

Exempel:

Vi ser att många flyttfåglar flyger på natten
Varför?
a) Rovdjur kanske påverkar?
b) Fler fåglar blir fångade på dagen
c) H₀= Ingen skillnad mellan natt o dag
Designa ett passande vetenskapligt försök
Samla in lämplig data, antecknar ner beteenden etc.
Kolla med statistik om arbetshypotesen stödjs eller förkastas av den insamlade datan
Rapportera

New cards

Intercept

m-värdet, kallat a i en regression. Ofta är detta värde någorlunda ointressant i ett statistiskt test då man inte riktigt bryr sig vart den räta linjens ekvation börjar någonstans

New cards

Kategoriska data

En typ av kvantitativ data, exempelvis namn och arter. Denna typen av data är sällan siffror utan mer kategorier eller begrepp

New cards

Kontinuerliga data

En form av numerisk data som kan anta “alla värden”, exempelvis längd eller vikt. Det är sällan vikten på ett objekt faller in perfekt på gram utan självaste vikten är diskret men blir ofta avrundad till en diskret data

New cards

Korrelation

Att mäta association mellan två variabler där en INTE anses påverka den andra. Modellen kan visa om ___ är positiv eller negativ, och hur stark ___ är med hjälp av r som varierar mellan -1 och 1 som mest

Viktigt att komma ihåg att även om ___ finns betyder inte det att kausalitet är närvarande, kan ofta finnas en underliggande tredje faktor som påverkar båda variablerna

New cards

Lutning (linjens lutning)

k-värdet, eller b-värdet här. Visar om regressionen är positiv eller negativ

New cards

Lägesmått

En sammanfattning av data med ett typiskt värde av alla mätvärden, exempelvis medelvärde eller median. Oftast bättre att presentera ett typiskt värde på det man analyserat eftersom det är mer intressant än en lista på alla datapunkter man samlat ihop

New cards

Medelvärde

Matematisk förklaring: Summan av alla mätvärden dividerade med antalet mätvärden, exempelvis 2+3+4+3/4 = 3.

Allmän förklaring: Ett lägesmått som är väldigt vanligt att använda sig av för att kunna uttrycka sig om en statistisk population. Är ofta ett bra sätt att hitta en “normal siffra ur ett stickprov, men är oerhört känslig för avvikande värden som direkt kan ge skeva resultat

New cards

Median

Matematisk förklaring: Mätvärdet som hamnar i mitten, alternativt medelvärdet av de två tal som hamnar i mitten. Exempelvis 5, 6, 7, 8, 9, ___ är 7, eller 4, 6, 8, 10, ___ är 6+8/10 = 7

Allmän förklaring: Det mittersta värdet i ett stickprov. Är ofta ett bra sätt att hitta en “normal” siffra ur ett stickprov, och är särskilt bra när flertalet utliggare finns eftersom ___ inte är överdrivet känslig mot avvikande värden

New cards

Nollhypotes (H0)

Att omformulera en hypotes till en neutral variant.

Ex. Ha = “Växters tillväxt hämmas vid exponering av koppar”

Då blir ___ = “Växters tillväxt påverkas inte alls vid exponering av koppar”

New cards

Nominaldata

En typ av katergorisk data som inte kan rangordnas på ett självklart sätt, exempelvis ögonfärger eller bilmärken

New cards

Normalfördelning

En fördelning som är vanlig i naturen där de värden närmast medelvärdet är vanligast, och minskar sedan i vanlighet i en “bell” formad kurva om man kollar både över och under medelvärdet. Naturen kommer sällan producera en perfekt fördelning enligt denna princip men med tillräckligt stora stickprov kan en någorlunda fin kurva skapas

New cards

Numeriska data

Data som är i sifferform, exempelvis vikt eller ålder

New cards

Olika varianser

Oftast inte bra för ett statistiskt test, och leder till att welch-tester utförs

New cards

Ordinaldata

En typ av kategorisk data där det finns en given ordningsföljd, exempelvis betyg. Man kan ranka det A-F eller F-A beroende på vad som passar hypotesen, men C-D kommer alltid att hamna i mitten

New cards

Origo

Punkten där både x-axeln och y-axeln motsvarar 0, (0,0) i ett koordinatsystem

New cards

Outlier (utliggare)

Mätvärden i ett stickprov som ligger långt ifrån medelvärdet/resterande mätvärden

New cards

Parat t-test

Ett slags t-test som utförs när datapunkterna är beroende av varandra. Testet antar följande:

Beroende data, exempelvis före/efter en behandling eller samma individ som utsätts för två olika grejer
Normalfördelad skillnad mellan de två stickproven

New cards

Pearson's product moment correlation

Parametrisk korrelation. Ett test på associationen mellan Y1 och Y2 där variablerna inte anses vara förklaringsvariabler eller responsvariabler

New cards

Precision (medelvärdets precision)

Hur precist/pålitligt ett medelvärdet är. Dett lättaste/billigaste sättet att estimera detta är att använda sig av standard error

New cards

Post-hoctest (t.ex Tukey-test)

Det korrekta sättet att göra parvisa tester på, och görs ofta efter en ANOVA för att kolla exakt vilka grupper som skiljer sig från varandra och ett individuellt p-värde för varje parat test

New cards

P-värde

Ett värde som beskriver probabiliteten av att man får fram sitt resultat eller ett mer extremt resultat även ifall nollhypotesen stämmer. Man brukar vilja satsa på _<0.05 eftersom chansen att begå ett typ-1 fel, alfa, är satt på 0.05. Detta kan ibland varieras

New cards

r (korrelationskoefficienten)

En siffra som beskriver hur väl korrelationen mellan två variabler är. Kan variera mellan -1, en stark negativ korrelation, och +1, en stark positiv korrelation

New cards

R 2

Matematisk förklaring: Sums of squares av residualer dividerat med totala sums of squares

Allmän förklaring: Ett statistiskt mått som förklarar hur mycket av variationen i y som kan förklaras av variation i x. __ kan endast variera mellan 0, att datan inte passar regressionslinjen alls, eller 1, att datan perfekt passar regressionslinjen

New cards

Rankade data

Den mest extrema transformeringen som finns. All data förlorar sitt originella värde och antar värden som 1-2-3-4-5 etc. i sin ordningsföljd

New cards

Regression

Att analysera ifall en variabel påverkar en annan. Exempelvis “En ökad halt svavel minskar abundansen av ___”. Testet antar följande:

Oberoende data
Normalfördelade residualer
Lika varianser, inget samband mellan residualer och y
Ingen tydlig kurva

New cards

Residualer (Error)

Oförklarad variation i data vid ett ANOVA-test

New cards

Responsvariabel

En variabel som eventuellt förändras på grund av förändringar i en förklaringsvariabel. Lätt sagt den svarar på förklaringsvariabeln. Exempelvis vikten ändras i respons till djurarten, eller pH-värdet av sjöar ändras i respons till kalkning

New cards

Single-sample t-test

Ett t-test där endast ett stickprov jämförs mot ett redan känt värde. Exemelvis mäter du temperaturen på flertalet patienter för att avgöra om sjukdomen ger feber. Man vet att en normal kroppstemperatur är ca 37^oC,, och därav kan man jämföra stickprovet mot detta redan kända värde. Liknar parat t-test i sin matematiska formel

New cards

Skev fördelning

Data som inte är normalfördelad, därav data som inte är lämplig att använda i flertalet statistiska test eftersom majoriteten antar normalfördelad data

New cards

Spearman correlation

Ett korrelationstest som utgår från rankad data, och antar alltså ingen normalfördelning av data

New cards

Spridningsmått

Ett mått som beskriver ett omfång av värden, kort sagt deras spridning. Här finns bland annat sums of squares, varians och standardavvikelse inräknat. Det är väldigt vanligt med spridda värden inom biologin

New cards

SST= SSG + SSE

Alla sums of squares är summan av de sums of squares av förklarad variation (G) respektive sums of squares (R) med oförklarad variation

New cards

Standardavvikelse (S.D)

Matematisk förklaring: Kvadratroten ur på variansen. Exempelvis variansen = 16, då är ____ = 4

Allmän förklaring: Ett mycket användbart mått för att beskriva spridning som tar väck problematiken med att variansen har en kvadrerad enhet

New cards

Standard error (SE)

Matematisk förklaring: Standardavvikelsen dividerat med kvadratroten ur på antalet mätvärden. Exempelvis standardavvikelsen = 2, antalet mätvärden är 9, ___ blir 2/3 eller ca 0.67

Allmän förklaring: Ett standardiserat statistiskt mått på hur mycket de olika värderna avviker från medelvärdet. Hög ___ innebär dålig precision och låg ___ innebär bra precision

New cards

Statistisk population

Alla de individer man vill uttala sig kring. Ur detta begrepp tar man ett stickprov som följer de antaganden som krävs för det statistiska test som valts

New cards

Statistiskt signifikant skillnad

Att ett test ger ett tillräckligt lågt p-värde för att kunna ses som pålitlig. En ___ är inte alltid aktuell eftersom skillnaden kan vara så liten att den biologiska skillnaden fortfarande kan anses vara icke existerande

New cards

Stickprov

Ett urval, helst slumpmässig, ur den statistiska populationen. En bra lösning inom många biologiska studier då det oftast är helt orimligt att studera vartenda individ i den statistiska populationen

New cards

Sums of Squares

Matematisk förklaring: Summan av alla mätvärden, med medelvärdet subtraherat ifrån sig, upphöjt till två. Exempelvis medelvärde =2 ger ___ = (2-2)²+ (4-2)² + (6-2)² = 4 + 16 = 20

Allmän förklaring: Kvadreringen av avvikelsen mellan alla mätvärden och stickprovets medelvärde. Är ett användbart spridningsmått, men blir större med antalet mätvärden

New cards

Teststorhet (testvariabel)

Siffra som beskriver hur mycket datan avviker frånnollhypotesen

New cards

Transformering

Att förändra data med matematiska formler när det inte finns en tydlig normalfördelning. De två vanligaste varianterna är logaritmering, att köra kvadratroten ur, eller att ranka sin data ifall ingen av de andra varianterna ger bra resultat. Får ENDAST ändra mätvärdernas värden, INTE deras rankade placering

New cards

T-test (independent samples t-test)

Testar om 2 grupper har signifikant skillnad emellan sig. Detta test antar tre grejer:

Oberoende data. Olika mätvärden får exempelvis inte ha en geografisk likhet eller att alla individer är nära släkt
Normalfördelad data, är sällan perfekt men bör likna en normalfördelning
Lika varianser, en varians får ej vara dubbla den andra

Att göra flertalet _-test på rad ökar chansen för typ-1 fel, därav är andra statistiska test mer lämpade för flera faktornivåer

New cards

T-värde

Matematisk formulering: (independent sample T-test) skillnaden i medelvärde mellan grupp 1 och grupp 2 dividerat med skillnaden i standard error mellan grupp 1 och 2

Allmän förklaring: En standardiserat skillnad mellan två grupper och kan bli negativ men ska alltid antecknas som positiv

New cards

Typ 1-fel

Att det inte finns en skillnad i den statistiska populationen, men att stickprovet får det att framstå som det. Man accepterar en 5% risk att begå ett fel

New cards

Typ 2-fel

Att det finns en skillnad i den statistiska populationen men att stickprovet får det att framstå som att det inte finns. Man brukar acceptera en risk att göra detta fel under 20%

New cards

Typvärde (Mode)

Det vanligaste förekommande värdet i en datasamling, och fungerar ändast när värden faktiskt förekommer

New cards

Varians

Matematisk förklaring: Sums of squares dividerat med antalet frihetsgrader. Exempelvis SS = 4, finns 5 mätvärden ger 4/4 = ____ är 1

Allmän förklaring: Ett mycket användbart spridningsmått, men har en kvadrerad enhet vilket ofta kan vara obekvämt att använda

New cards

Welsh t-test

Ett t-test som sänker antalet frihetsgrader och gör att t-testet inte längre har lika varianser som ett antagande, därav ett robust alternativ men också större chans för typ 2-fel. Lite mer komplext att räkna än det vanliga t-testet

New cards

Wilcoxon test

Ett t-test som använder sig av rankad data. Detta gör att antagandet om normalfördelning försvinner, men testet antar fortfarande oberoende data (om inte ett parat ___ test) och lika varianser. Chansen att begå typ 2-fel ökar i detta test, men är ändå ett robust alternativ eftersom antalet antaganden är färre

New cards

Y=bX+a (eller Y=kX+m)

Räta linjens ekvation, används i en regression där intercept motsvarar a och linjens lutning motsvarar b