1/64
Inför duggan, ifrån Moodle, vissa förklaringar kan vara lite kassa
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
ANOVA
Analysis of variance, ett “utökat t-test”. Ett statistiskt test som jämför flera olika stickprov med med fler än två faktornivåer representerade i datasetet. Testet antar följande:
Oberoende data/observationer
Normalfördelade residualer (ingen tratt)
Lika varianser, får inte finnas ett samband mellan medelvärde och varians
INTE NÖDVÄNDIGT, men är bra med balanserad data
Antaganden för statistiska tester
Olika test kommer att ha olika antaganden för att värderna de returnernar ska anses sanningsenliga
Boxplot / lådogram
Ett diagram som visar om datasetet är normalfördelat. Visar median, övre kvartil, nedre kvartil och dessa representerar 25%, 50% och 75% av alla mätvärden. Är som sagt bra för att hitta normalfördelning bland värden och att jämföra varianser mellan olika testgrupper
Diagnostiska plottar
Plottar som hjälper en att se om antaganden såsom normalfördelade residualer och icke s-formade Q-Q plottar stämmer
Diskreta data (intervalldata)
Numerisk data som antar värden inom intervaller, Exempelvis antalet barn i en familj. Du kan inte ha 2.754 barn i en familj om du inte räknat ut ett medelvärde på många familjer
Estimering
En ungefärlig beräkning eller bedömning som baseras på den information man fått genom sina studier och statistiska tester
Faktor
En kategorisk förklaringsvariabel, exempelvis art eller skogstyp
Faktornivåer
“Underarter” till faktorn. Exempelvis björk och gran som faktornivåer till skogstyp, eller blåmes och talgoxe som faktornivåer till art
Falsifikation
Att motbevisa en vetenskaplig teori. En vetenskaplig teori måste ha en möjlighet att bli motbevisad för att anses vara vetenskaplig. Teorin måste inte vara falsk, utan argumentationen runt resultatet måste vara uppbyggd på ett sätt som gör att om empiriska observationer tyder på något annat kan teorin förkastas
Frihetsgrader (d.f)
Matematisk förklaring: Antalet mätvärden i ett stickprov -1. Exempelvis 8 mätvärden, då är ____ 7
Allmän förklaring: Antalet mätvärden i ett stickprov minus 1. Detta är för att (exempelvis) om vi vet vikten på alla elefanter förutom en, och den totala vikten för alla elefanter, är den sista elefantens vikt given
F-värde (F-kvot)
Teststorhet vid ANOVA, ett stort _-värde gör att mycket av datan kan förklaras
Förklaringsvariabel
En variabel som möjligen kan förklara varför en annan variabel skiljer sig åt, ‘prediktor’. Exempelvis arten av djur påverkar vikten, eller kalkning av sjöar påverkar pH-värdet.
Histogram
Ett diagram som delar upp mätvärden i olika kategorier, exempelvis ålder 1-2, 2-3 osv. och gör sedan staplar inom varje kategori som visar antalet mätvärden inom varje kategori. Ska helst visa på en normalfördelad kurva men kräver ofta väldigt stora stickprov för att uppnå det
Hypotes
Den minsta logiska enheten i en vetenskaplig undersökning. Ett antagande om hur man tror det man studerar hänger ihop, skrivs innan studien påbörjas. Måste vara möjlig att pröva
“En ___ kan aldrig bevisas, bara förkastas” - Karl Popper
Hypotesprövning
En statistisk metod för att testa om en hypotes är trovärdig baserat på den data man samlat in. Detta görs genom statistiska tester som kan ge ett svar kring om arbetshypotesen eller nollhypotesen bör förkastas. Det kan endast göras ett uttalande kring statistiskt stöd till en eller en annan hypotes om p<0.05, eftersom det oftast är den procentuella chansen att göra ett typ-1 fel som accepteras
Hypotetisk-deduktiva metoden
Ett systesm som hjälper en att kolla ifall ens hypotes stämmer.
Observation, man ser något intressant i naturen och
Förklaring, man försöker förstå varför det man observerat uppstår
a) Hypotes, alternativa hypoteser
b) Prediktioner, ställs up med hjälp av hypoteser
c) Statistisk nollhypotes, neutralisera arbetshypotesen
Designa försök, hur tar jag reda på detta på bästa sätt?
‘Experiment’, samla in data, anteckna beteenden
Dra slutsats, statistik kommer in här och hjälper analysera datan
Rapportera
Exempel:
Vi ser att många flyttfåglar flyger på natten
Varför?
a) Rovdjur kanske påverkar?
b) Fler fåglar blir fångade på dagen
c) H0= Ingen skillnad mellan natt o dag
Designa ett passande vetenskapligt försök
Samla in lämplig data, antecknar ner beteenden etc.
Kolla med statistik om arbetshypotesen stödjs eller förkastas av den insamlade datan
Rapportera
Intercept
m-värdet, kallat a i en regression. Ofta är detta värde någorlunda ointressant i ett statistiskt test då man inte riktigt bryr sig vart den räta linjens ekvation börjar någonstans
Kategoriska data
En typ av kvantitativ data, exempelvis namn och arter. Denna typen av data är sällan siffror utan mer kategorier eller begrepp
Kontinuerliga data
En form av numerisk data som kan anta “alla värden”, exempelvis längd eller vikt. Det är sällan vikten på ett objekt faller in perfekt på gram utan självaste vikten är diskret men blir ofta avrundad till en diskret data
Korrelation
Att mäta association mellan två variabler där en INTE anses påverka den andra. Modellen kan visa om ___ är positiv eller negativ, och hur stark ___ är med hjälp av r som varierar mellan -1 och 1 som mest
Viktigt att komma ihåg att även om ___ finns betyder inte det att kausalitet är närvarande, kan ofta finnas en underliggande tredje faktor som påverkar båda variablerna
Lutning (linjens lutning)
k-värdet, eller b-värdet här. Visar om regressionen är positiv eller negativ
Lägesmått
En sammanfattning av data med ett typiskt värde av alla mätvärden, exempelvis medelvärde eller median. Oftast bättre att presentera ett typiskt värde på det man analyserat eftersom det är mer intressant än en lista på alla datapunkter man samlat ihop
Medelvärde
Matematisk förklaring: Summan av alla mätvärden dividerade med antalet mätvärden, exempelvis 2+3+4+3/4 = 3.
Allmän förklaring: Ett lägesmått som är väldigt vanligt att använda sig av för att kunna uttrycka sig om en statistisk population. Är ofta ett bra sätt att hitta en “normal siffra ur ett stickprov, men är oerhört känslig för avvikande värden som direkt kan ge skeva resultat
Median
Matematisk förklaring: Mätvärdet som hamnar i mitten, alternativt medelvärdet av de två tal som hamnar i mitten. Exempelvis 5, 6, 7, 8, 9, ___ är 7, eller 4, 6, 8, 10, ___ är 6+8/10 = 7
Allmän förklaring: Det mittersta värdet i ett stickprov. Är ofta ett bra sätt att hitta en “normal” siffra ur ett stickprov, och är särskilt bra när flertalet utliggare finns eftersom ___ inte är överdrivet känslig mot avvikande värden
Nollhypotes (H0)
Att omformulera en hypotes till en neutral variant.
Ex. Ha = “Växters tillväxt hämmas vid exponering av koppar”
Då blir ___ = “Växters tillväxt påverkas inte alls vid exponering av koppar”
Nominaldata
En typ av katergorisk data som inte kan rangordnas på ett självklart sätt, exempelvis ögonfärger eller bilmärken
Normalfördelning
En fördelning som är vanlig i naturen där de värden närmast medelvärdet är vanligast, och minskar sedan i vanlighet i en “bell” formad kurva om man kollar både över och under medelvärdet. Naturen kommer sällan producera en perfekt fördelning enligt denna princip men med tillräckligt stora stickprov kan en någorlunda fin kurva skapas
Numeriska data
Data som är i sifferform, exempelvis vikt eller ålder
Olika varianser
Oftast inte bra för ett statistiskt test, och leder till att welch-tester utförs
Ordinaldata
En typ av kategorisk data där det finns en given ordningsföljd, exempelvis betyg. Man kan ranka det A-F eller F-A beroende på vad som passar hypotesen, men C-D kommer alltid att hamna i mitten
Origo
Punkten där både x-axeln och y-axeln motsvarar 0, (0,0) i ett koordinatsystem
Outlier (utliggare)
Mätvärden i ett stickprov som ligger långt ifrån medelvärdet/resterande mätvärden
Parat t-test
Ett slags t-test som utförs när datapunkterna är beroende av varandra. Testet antar följande:
Beroende data, exempelvis före/efter en behandling eller samma individ som utsätts för två olika grejer
Normalfördelad skillnad mellan de två stickproven
Pearson's product moment correlation
Parametrisk korrelation. Ett test på associationen mellan Y1 och Y2 där variablerna inte anses vara förklaringsvariabler eller responsvariabler
Precision (medelvärdets precision)
Hur precist/pålitligt ett medelvärdet är. Dett lättaste/billigaste sättet att estimera detta är att använda sig av standard error
Post-hoctest (t.ex Tukey-test)
Det korrekta sättet att göra parvisa tester på, och görs ofta efter en ANOVA för att kolla exakt vilka grupper som skiljer sig från varandra och ett individuellt p-värde för varje parat test
P-värde
Ett värde som beskriver probabiliteten av att man får fram sitt resultat eller ett mer extremt resultat även ifall nollhypotesen stämmer. Man brukar vilja satsa på _<0.05 eftersom chansen att begå ett typ-1 fel, alfa, är satt på 0.05. Detta kan ibland varieras
r (korrelationskoefficienten)
En siffra som beskriver hur väl korrelationen mellan två variabler är. Kan variera mellan -1, en stark negativ korrelation, och +1, en stark positiv korrelation
R 2
Matematisk förklaring: Sums of squares av residualer dividerat med totala sums of squares
Allmän förklaring: Ett statistiskt mått som förklarar hur mycket av variationen i y som kan förklaras av variation i x. __ kan endast variera mellan 0, att datan inte passar regressionslinjen alls, eller 1, att datan perfekt passar regressionslinjen
Rankade data
Den mest extrema transformeringen som finns. All data förlorar sitt originella värde och antar värden som 1-2-3-4-5 etc. i sin ordningsföljd
Regression
Att analysera ifall en variabel påverkar en annan. Exempelvis “En ökad halt svavel minskar abundansen av ___”. Testet antar följande:
Oberoende data
Normalfördelade residualer
Lika varianser, inget samband mellan residualer och y
Ingen tydlig kurva
Residualer (Error)
Oförklarad variation i data vid ett ANOVA-test
Responsvariabel
En variabel som eventuellt förändras på grund av förändringar i en förklaringsvariabel. Lätt sagt den svarar på förklaringsvariabeln. Exempelvis vikten ändras i respons till djurarten, eller pH-värdet av sjöar ändras i respons till kalkning
Single-sample t-test
Ett t-test där endast ett stickprov jämförs mot ett redan känt värde. Exemelvis mäter du temperaturen på flertalet patienter för att avgöra om sjukdomen ger feber. Man vet att en normal kroppstemperatur är ca 37oC,, och därav kan man jämföra stickprovet mot detta redan kända värde. Liknar parat t-test i sin matematiska formel
Skev fördelning
Data som inte är normalfördelad, därav data som inte är lämplig att använda i flertalet statistiska test eftersom majoriteten antar normalfördelad data
Spearman correlation
Ett korrelationstest som utgår från rankad data, och antar alltså ingen normalfördelning av data
Spridningsmått
Ett mått som beskriver ett omfång av värden, kort sagt deras spridning. Här finns bland annat sums of squares, varians och standardavvikelse inräknat. Det är väldigt vanligt med spridda värden inom biologin
SST= SSG + SSE
Alla sums of squares är summan av de sums of squares av förklarad variation (G) respektive sums of squares (R) med oförklarad variation
Standardavvikelse (S.D)
Matematisk förklaring: Kvadratroten ur på variansen. Exempelvis variansen = 16, då är ____ = 4
Allmän förklaring: Ett mycket användbart mått för att beskriva spridning som tar väck problematiken med att variansen har en kvadrerad enhet
Standard error (SE)
Matematisk förklaring: Standardavvikelsen dividerat med kvadratroten ur på antalet mätvärden. Exempelvis standardavvikelsen = 2, antalet mätvärden är 9, ___ blir 2/3 eller ca 0.67
Allmän förklaring: Ett standardiserat statistiskt mått på hur mycket de olika värderna avviker från medelvärdet. Hög ___ innebär dålig precision och låg ___ innebär bra precision
Statistisk population
Alla de individer man vill uttala sig kring. Ur detta begrepp tar man ett stickprov som följer de antaganden som krävs för det statistiska test som valts
Statistiskt signifikant skillnad
Att ett test ger ett tillräckligt lågt p-värde för att kunna ses som pålitlig. En ___ är inte alltid aktuell eftersom skillnaden kan vara så liten att den biologiska skillnaden fortfarande kan anses vara icke existerande
Stickprov
Ett urval, helst slumpmässig, ur den statistiska populationen. En bra lösning inom många biologiska studier då det oftast är helt orimligt att studera vartenda individ i den statistiska populationen
Sums of Squares
Matematisk förklaring: Summan av alla mätvärden, med medelvärdet subtraherat ifrån sig, upphöjt till två. Exempelvis medelvärde =2 ger ___ = (2-2)2+ (4-2)2 + (6-2)2 = 4 + 16 = 20
Allmän förklaring: Kvadreringen av avvikelsen mellan alla mätvärden och stickprovets medelvärde. Är ett användbart spridningsmått, men blir större med antalet mätvärden
Teststorhet (testvariabel)
Siffra som beskriver hur mycket datan avviker från nollhypotesen
Transformering
Att förändra data med matematiska formler när det inte finns en tydlig normalfördelning. De två vanligaste varianterna är logaritmering, att köra kvadratroten ur, eller att ranka sin data ifall ingen av de andra varianterna ger bra resultat. Får ENDAST ändra mätvärdernas värden, INTE deras rankade placering
T-test (independent samples t-test)
Testar om 2 grupper har signifikant skillnad emellan sig. Detta test antar tre grejer:
Oberoende data. Olika mätvärden får exempelvis inte ha en geografisk likhet eller att alla individer är nära släkt
Normalfördelad data, är sällan perfekt men bör likna en normalfördelning
Lika varianser, en varians får ej vara dubbla den andra
Att göra flertalet _-test på rad ökar chansen för typ-1 fel, därav är andra statistiska test mer lämpade för flera faktornivåer
T-värde
Matematisk formulering: (independent sample T-test) skillnaden i medelvärde mellan grupp 1 och grupp 2 dividerat med skillnaden i standard error mellan grupp 1 och 2
Allmän förklaring: En standardiserat skillnad mellan två grupper och kan bli negativ men ska alltid antecknas som positiv
Typ 1-fel
Att det inte finns en skillnad i den statistiska populationen, men att stickprovet får det att framstå som det. Man accepterar en 5% risk att begå ett fel
Typ 2-fel
Att det finns en skillnad i den statistiska populationen men att stickprovet får det att framstå som att det inte finns. Man brukar acceptera en risk att göra detta fel under 20%
Typvärde (Mode)
Det vanligaste förekommande värdet i en datasamling, och fungerar ändast när värden faktiskt förekommer
Varians
Matematisk förklaring: Sums of squares dividerat med antalet frihetsgrader. Exempelvis SS = 4, finns 5 mätvärden ger 4/4 = ____ är 1
Allmän förklaring: Ett mycket användbart spridningsmått, men har en kvadrerad enhet vilket ofta kan vara obekvämt att använda
Welsh t-test
Ett t-test som sänker antalet frihetsgrader och gör att t-testet inte längre har lika varianser som ett antagande, därav ett robust alternativ men också större chans för typ 2-fel. Lite mer komplext att räkna än det vanliga t-testet
Wilcoxon test
Ett t-test som använder sig av rankad data. Detta gör att antagandet om normalfördelning försvinner, men testet antar fortfarande oberoende data (om inte ett parat ___ test) och lika varianser. Chansen att begå typ 2-fel ökar i detta test, men är ändå ett robust alternativ eftersom antalet antaganden är färre
Y=bX+a (eller Y=kX+m)
Räta linjens ekvation, används i en regression där intercept motsvarar a och linjens lutning motsvarar b