Statistik Del 2: Deskriptiv Statistik och Normalfördelning
Grundläggande Begrepp och Metodöversikt Dessutom Deskriptiv Statistik och Normalfördelning
Repetition och Introduktion
Denna del av kursen i statistik, för Radiografi (Introduktion och vetenskaplig metod) samt Biomedicinsk laboratoriemetodik med vetenskaplig metod I, leds av Jessica Carlsson, Statistiker och docent i biomedicin.
Grundläggande Begrepp
Målpopulation: Den kompletta grupp av individer eller objekt som studien avser att dra slutsatser om.
Stickprov: En mindre delmängd av målpopulationen som väljs ut för att representera hela populationen i studien.
Individ: En enhet i populationen som studeras.
Variabel: En egenskap eller karaktäristika hos individer i populationen som kan anta olika värden (t.ex., Ålder, Kön, Utbildning). Exempel: Ålder, Kön, Utbildning.
Värde/Utfall: De specifika observationerna eller resultaten för en variabel (t.ex., år, Man, Universitet).
Studiedesign och Analysmetoder
Deskriptiv statistik: Metoder för att organisera, sammanfatta och presentera insamlad data på ett överskådligt sätt. Detta inkluderar grafiska presentationer (tabeller och diagram) samt numeriska presentationer (genomsnittsvärden och spridningsmått).
Analytisk statistik: Metoder för att dra slutsatser om populationen baserat på stickprovet, dvs. generalisera resultaten.
Slutsats: De övergripande fynd som dras från den statistiska analysen.
Mätskalor: Klassificeringssystem för variabler som påverkar vilken statistisk metod som är lämplig (Nominal, Ordinal, Intervall, Kvot).
Studiedesign: omfattar olika undersökningstyper, urvalsmetoder och hantering av bortfall.
Deskriptiv Statistik: Läge, Spridning och Fördelning
Deskriptiv statistik syftar till att organisera och sammanställa insamlad data med hjälp av grafisk och numerisk presentation. Den numeriska presentationen inkluderar genomsnittsvärden (lägesmått) och spridningsmått.
Deskriptiva Mått
Deskriptiva mått kan delas in i tre huvudkategorier:
Läge (Central Location): Beskriver datamaterialets "centrum" eller "tyngdpunkt".
Spridning (Variability): Beskriver hur mycket observationerna varierar kring läget.
Fördelning/form (Distribution/Shape): Beskriver datans skevhet (symmetrisk, positivt eller negativt sned).
Lägesmått
Lägesmått är värden som representerar mitten eller "tyngdpunkten" i ett datamaterial.
Aritmetiskt Medelvärde
Definition: Summan av alla mätvärden dividerat med antalet mätvärden.
Formel: , där är varje observation och är antalet observationer.
Exempel: Vikter i kg: .
Median
Definition: Delar ett material i två lika stora delar. Det är det mittersta värdet när datamaterialet grupperats i storleksordning.
Hantering av jämnt antal variabelvärden: Om antalet observationer är jämnt, beräknas medianen som medelvärdet av de två mittersta värdena.
Exempel (udda antal): (Om ett värde saknades och 63 var det mittersta) -> Median = kg (Detta exempel är lite otydligt i texten, men intentionen är att visa ett udda antal). Låt oss istället ta de 6 vikterna från medelvärdesexemplet: . Medianen ligger mellan och . Om ett dataset vore (5 värden), medianen är .
Exempel (jämnt antal): Vikter i kg: . Median
Typvärde (Mode)
Definition: Det vanligaste värdet i en fördelning.
Exempel: Vikter i kg: . Typvärdet är kg.
Sammanfattning av Lägesmått (Exempel)
Ålder (år): .
Medelvärde: år.
Median: år (det mittersta värdet efter sortering).
Typvärde: år (det vanligaste värdet).
Val av Lägesmått
Valet av lägesmått beror på skalnivån (typen av data) och datans fördelning (hur datan ser ut).
Nominalskala: Endast typvärde är meningsfullt. Medelvärde och median är inte lämpliga. Exempel: Typvärdet för blodgrupp är A.
Ordinalskala: Typvärde och median är lämpliga. Medelvärde är inte meningsfullt. Exempel: Typvärde för smärta (skala 1-10) kan vara , median för smärta kan vara .
Kvot/Intervallskala (symmetrisk fördelning): Medelvärdet är oftast bäst. I en symmetrisk fördelning är medelvärdet lika med medianen.
Kvot/Intervallskala (positivt sned fördelning): När fördelningen är positivt sned (med en "svans" åt höger), är medianen att föredra eftersom medelvärdet dras mot svansen (medelvärdet > medianen).
Kvot/Intervallskala (negativt sned fördelning): När fördelningen är negativt sned (med en "svans" åt vänster), är medianen att föredra eftersom medelvärdet dras mot svansen (medelvärdet < medianen).
Varför inte alltid använda medelvärdet? Medelvärdet är känsligt för extremvärden (outliers) och skevhet i data, samt att det kan vara missvisande om numeriska värden tilldelas till kategoriska variabler (t.ex. vid kodning av en nominal variabel).
Skalnivå | Lägesmått |
|---|---|
Nominal | Typvärde |
Ordinal (få skalsteg) | Typvärde |
Ordinal (många skalsteg) | Typvärde, Median |
Intervall och kvotdata (symmetrisk) | Medelvärde, Median |
Intervall och kvotdata (sned) | Median |
Spridningsmått
Spridningsmått kvantifierar hur mycket observationerna varierar eller sprids kring läget. Valet av spridningsmått är kopplat till vilket lägesmått som används.
Standardavvikelse ()
Definition: Ett mått på den genomsnittliga avvikelsen från medelvärdet.
Problem med enkel avvikelsesummering: Summan av enskilda avvikelser från medelvärdet blir alltid noll.
Exempel: Antal cigaretter/dag: . Medelvärde .
Avvikelser: . Summa .
Kvadrering av avvikelser (Variansen, ):
För att undvika att summan blir noll kvadreras varje avvikelse. Summan av kvadrerade avvikelser används.
Exempel (fortsättning): Kvadrerade avvikelser: . Summa av kvadrerade avvikelser .
Variansen (): Summan av kvadrerade avvikelser divideras med (för stickprovsdata för en bättre skattning av populationsvariansen). Variansens enhet (t.ex., ) är svårtolkad.
Standardavvikelse (s): Roten ur variansen, vilket ger spridningsmåttet samma enhet som de ursprungliga mätvärdena.
Formel:
Exempel (fortsättning): Medelvärde cigaretter/dag. Summa av kvadrerade differenser . .
Jämförelse av dieter (exempel): Två dieter, A och B, båda med medelvärde viktnedgång på kg. Diet A: kg. Diet B: kg. Diet B har mindre spridning, vilket indikerar mer konsistenta resultat.
Variationskoefficient (CV)
Definition: Anger hur stor standardavvikelsen är i förhållande till medelvärdet, uttryckt som en relativ spridning i procent.
Formel:
Exempel (blodsockermätning): Två tekniker, Metod A och Metod B.
Metod A: .
Metod B: .
Metod B har lägre variationskoefficient, vilket indikerar högre precision.
Percentiler
Definition: Används för att beskriva hur stor andel av en population som ligger under ett angivet värde. Exempelvis ligger av observationerna under den 10:e percentilen.
Användning: Främst vid stort antal observationer.
Positionsformel: Den -te percentilen () kan approximeras med positionen vid sorterad data.
Exempel: Beräkna den 50:e percentilen (medianen) för: (sorterade värden). Antal observationer () = .
Position (den 5:e observationen).
Den 5:e observationen är , vilket är medianen.
Kvartilavstånd
Definition: Delar ett datamaterial i fyra lika stora delar baserat på tre kvartilgränser ().
(Undre kvartil): 25:e percentilen.
(Median): 50:e percentilen.
(Övre kvartil): 75:e percentilen.
Kvartilavstånd (Interquartile Range, IQR): . Detta intervall innehåller de mittersta av värdena.
Exempel: Data: (sorterade). Baserat på en specifik beräkningsmetod:
Kvartilavstånd .
Variationsvidd (Range)
Definition: Skillnaden mellan det högsta och lägsta värdet i ett datamaterial (). Mycket känsligt för extremvärden.
Exempel: . Variationsvidd . Kan även anges som .
Modalprocent
Definition: Anger hur stor andel (procent) av datamaterialet som typvärdet utgör.
Exempel: Om typvärdet för en produkt är Vanilj och dess frekvens är , är modalprocenten .
Sammanfattning: Val av Spridningsmått
Valet av spridningsmått styrs av det lägesmått som valts utifrån datans skalnivå och fördelning.
Lägesmått | Spridningsmått |
|---|---|
Medelvärde | Standardavvikelse, Variationskoefficient |
Median | Percentiler, Kvartilavstånd |
Typvärde | Variationsvidd, Modalprocent |
Fördelning
Fördelningsform beskriver om data är symmetriskt eller asymmetriskt (skedvfördelat). Visuella verktyg som Box Plot, Stapeldiagram och Histogram används för att åskådliggöra fördelningen.
Box Plot (Lådagram)
Beskriver: Medianen, kvartilerna (), minsta och största värden inom ett rimligt intervall, samt avvikelser (outliers) och extrema avvikelser.
Outlier: Ett värde som ligger mer än gånger kvartilavståndet () ovanför eller under .
Extrem Outlier: Ett värde som ligger mer än gånger kvartilavståndet ovanför eller under .
Stapeldiagram (Stolpdiagram)
Användning: För kategoriska variabler (nominell eller ordinal skala).
Axlar: Kategorier på x-axeln, antal eller procent på y-axeln.
Utseende: Staplarna är åtskilda från varandra.
Histogram
Användning: För kontinuerliga variabler (intervall- eller kvotskala).
Axlar: Kontinuerliga värden på x-axeln, antal individer på y-axeln.
Utseende: Staplarna ligger intill varandra för att visa kontinuiteten i datan.
Utförlig Sammanfattning: Datanivå, Lägesmått, Spridningsmått och Form
Denna tabell ger en komplett översikt över lämpliga deskriptiva mått beroende på datans skalnivå.
Datanivå | Lägesmått | Spridningsmått | Form (grafisk presentation) |
|---|---|---|---|
Nominal | Typvärde | Modalprocent | - (Stapeldiagram för frekvenser, men inte för form i meningen skevhet) |
Ordinal – få skalsteg | Typvärde | Modalprocent | Stapeldiagram |
Ordinal – många skalsteg | Median, Typvärde | Percentiler, Kvartilavstånd | Box Plot, Stapeldiagram |
Intervall och kvotdata - symmetrisk | Medelvärde, Median | Standardavvikelse, Variationskoefficient (Kvartilavstånd) | Histogram, Box Plot |
Intervall och kvotdata - sned | Median | Kvartilavstånd | Histogram, Box Plot |
Normalfördelning (Kapitel 7)
Normalfördelningen är en av de viktigaste teoretiska fördelningarna inom statistiken.
Egenskaper
Teoretisk fördelning: Definieras av en matematisk formel.
Parametrar: Definieras helt av dess medelvärde () och standardavvikelse ().
Symmetrisk: Alltid symmetrisk kring sitt medelvärde (), vilket innebär att också är medianen och typvärdet.
Grafisk representation: Har en karakteristisk klockform.
Normalfördelningens Betydelse (Empiriska Regeln)
Den empiriska regeln beskriver andelen data som faller inom vissa standardavvikelser från medelvärdet i en normalfördelning.
av observationerna ligger inom standardavvikelse från medelvärdet ().
av observationerna ligger inom standardavvikelser från medelvärdet ().
av observationerna ligger inom standardavvikelser från medelvärdet ().
Exempel på Normalfördelning
Om medelvärdet () och standardavvikelsen () för kroppslängd:
av individerna har en längd mellan ().
av individerna har en längd mellan ().
av individerna har en längd mellan ().
Övergripande Sammanfattning och Slutsats
Flödesschema för statistisk metod och val av deskriptiva mått:
Målpopulation
Stickprov
Deskriptiv statistik (organisera och sammanställa data)
Analytisk statistik (dra slutsatser)
Slutsats
Val av mått baserat på fördelning:
Snedfördelat data: Använd Median som lägesmått och Percentiler eller Kvartilavstånd som spridningsmått.
Normalfördelat data (eller symmetriskt kvot/intervall data): Använd Medelvärde som lägesmått och Standardavvikelse som spridningsmått.