Statistik Del 2: Deskriptiv Statistik och Normalfördelning

Grundläggande Begrepp och Metodöversikt Dessutom Deskriptiv Statistik och Normalfördelning

Repetition och Introduktion

Denna del av kursen i statistik, för Radiografi (Introduktion och vetenskaplig metod) samt Biomedicinsk laboratoriemetodik med vetenskaplig metod I, leds av Jessica Carlsson, Statistiker och docent i biomedicin.

Grundläggande Begrepp

Målpopulation: Den kompletta grupp av individer eller objekt som studien avser att dra slutsatser om.
Stickprov: En mindre delmängd av målpopulationen som väljs ut för att representera hela populationen i studien.
Individ: En enhet i populationen som studeras.
Variabel: En egenskap eller karaktäristika hos individer i populationen som kan anta olika värden (t.ex., Ålder, Kön, Utbildning). Exempel: Ålder, Kön, Utbildning.
Värde/Utfall: De specifika observationerna eller resultaten för en variabel (t.ex., $53$ år, Man, Universitet).

Studiedesign och Analysmetoder

Deskriptiv statistik: Metoder för att organisera, sammanfatta och presentera insamlad data på ett överskådligt sätt. Detta inkluderar grafiska presentationer (tabeller och diagram) samt numeriska presentationer (genomsnittsvärden och spridningsmått).
Analytisk statistik: Metoder för att dra slutsatser om populationen baserat på stickprovet, dvs. generalisera resultaten.
Slutsats: De övergripande fynd som dras från den statistiska analysen.
Mätskalor: Klassificeringssystem för variabler som påverkar vilken statistisk metod som är lämplig (Nominal, Ordinal, Intervall, Kvot).
Studiedesign: omfattar olika undersökningstyper, urvalsmetoder och hantering av bortfall.

Deskriptiv Statistik: Läge, Spridning och Fördelning

Deskriptiv statistik syftar till att organisera och sammanställa insamlad data med hjälp av grafisk och numerisk presentation. Den numeriska presentationen inkluderar genomsnittsvärden (lägesmått) och spridningsmått.

Deskriptiva Mått

Deskriptiva mått kan delas in i tre huvudkategorier:

Läge (Central Location): Beskriver datamaterialets "centrum" eller "tyngdpunkt".
Spridning (Variability): Beskriver hur mycket observationerna varierar kring läget.
Fördelning/form (Distribution/Shape): Beskriver datans skevhet (symmetrisk, positivt eller negativt sned).

Lägesmått

Lägesmått är värden som representerar mitten eller "tyngdpunkten" i ett datamaterial.

Aritmetiskt Medelvärde $\bar{x}$

Definition: Summan av alla mätvärden dividerat med antalet mätvärden.
Formel: $\bar{x} = \frac{\sum{i=1}^{n} xi}{n} = \frac{x1 + x2 + \dots + xn}{n}$ , där $xi$ är varje observation och $n$ är antalet observationer.
Exempel: Vikter i kg: $52, 57, 63, 68, 75, 82$ .
$\bar{x} = \frac{52 + 57 + 63 + 68 + 75 + 82}{6} = \frac{397}{6} \approx 66,2 \text{ kg}$

Median

Definition: Delar ett material i två lika stora delar. Det är det mittersta värdet när datamaterialet grupperats i storleksordning.
Hantering av jämnt antal variabelvärden: Om antalet observationer är jämnt, beräknas medianen som medelvärdet av de två mittersta värdena.
Exempel (udda antal): $52, 57, \textbf{63}, 68, 75, 82$ (Om ett värde saknades och 63 var det mittersta) -> Median = $63$ kg (Detta exempel är lite otydligt i texten, men intentionen är att visa ett udda antal). Låt oss istället ta de 6 vikterna från medelvärdesexemplet: $52, 57, 63, 68, 75, 82$ . Medianen ligger mellan $63$ och $68$ . Om ett dataset vore $52, 57, 63, 68, 75$ (5 värden), medianen är $63$ .
Exempel (jämnt antal): Vikter i kg: $52, 57, 57, \textbf{63, 68}, 75, 82, 85$ . Median $= \frac{63 + 68}{2} = 65,5 \text{ kg}$

Typvärde (Mode)

Definition: Det vanligaste värdet i en fördelning.
Exempel: Vikter i kg: $52, \textbf{57, 57}, 63, 68, 75, 82$ . Typvärdet är $57$ kg.

Sammanfattning av Lägesmått (Exempel)

Ålder (år): $12, 16, 20, 25, 25, 32, 44, 51, 75$ .
- Medelvärde: $\bar{x} = \frac{300}{9} \approx 33,3$ år.
- Median: $25$ år (det mittersta värdet efter sortering).
- Typvärde: $25$ år (det vanligaste värdet).

Val av Lägesmått

Valet av lägesmått beror på skalnivån (typen av data) och datans fördelning (hur datan ser ut).

Nominalskala: Endast typvärde är meningsfullt. Medelvärde och median är inte lämpliga. Exempel: Typvärdet för blodgrupp är A.
Ordinalskala: Typvärde och median är lämpliga. Medelvärde är inte meningsfullt. Exempel: Typvärde för smärta (skala 1-10) kan vara $1$ , median för smärta kan vara $5,5$ .
Kvot/Intervallskala (symmetrisk fördelning): Medelvärdet är oftast bäst. I en symmetrisk fördelning är medelvärdet lika med medianen.
Kvot/Intervallskala (positivt sned fördelning): När fördelningen är positivt sned (med en "svans" åt höger), är medianen att föredra eftersom medelvärdet dras mot svansen (medelvärdet > medianen).
Kvot/Intervallskala (negativt sned fördelning): När fördelningen är negativt sned (med en "svans" åt vänster), är medianen att föredra eftersom medelvärdet dras mot svansen (medelvärdet < medianen).
Varför inte alltid använda medelvärdet? Medelvärdet är känsligt för extremvärden (outliers) och skevhet i data, samt att det kan vara missvisande om numeriska värden tilldelas till kategoriska variabler (t.ex. vid kodning av en nominal variabel).

Skalnivå	Lägesmått
Nominal	Typvärde
Ordinal (få skalsteg)	Typvärde
Ordinal (många skalsteg)	Typvärde, Median
Intervall och kvotdata (symmetrisk)	Medelvärde, Median
Intervall och kvotdata (sned)	Median

Spridningsmått

Spridningsmått kvantifierar hur mycket observationerna varierar eller sprids kring läget. Valet av spridningsmått är kopplat till vilket lägesmått som används.

Standardavvikelse ( $s, SD, \text{sd}$ )

Definition: Ett mått på den genomsnittliga avvikelsen från medelvärdet.
Problem med enkel avvikelsesummering: Summan av enskilda avvikelser $(x_i - \bar{x})$ från medelvärdet blir alltid noll.
- Exempel: Antal cigaretter/dag: $5, 15, 10, 8, 15, 10, 3, 6$ . Medelvärde $= 9$ .
- Avvikelser: $(5-9)=-4, (15-9)=6, (10-9)=1, (8-9)=-1, (15-9)=6, (10-9)=1, (3-9)=-6, (6-9)=-3$ . Summa $= 0$ .
Kvadrering av avvikelser (Variansen, $s^2$ ):
För att undvika att summan blir noll kvadreras varje avvikelse. Summan av kvadrerade avvikelser $\sum (x_i - \bar{x})^2$ används.
- Exempel (fortsättning): Kvadrerade avvikelser: $(-4)^2=16, 6^2=36, 1^2=1, (-1)^2=1, 6^2=36, 1^2=1, (-6)^2=36, (-3)^2=9$ . Summa av kvadrerade avvikelser $= 136$ .
- Variansen ( $s^2$ ): Summan av kvadrerade avvikelser divideras med $n-1$ (för stickprovsdata för en bättre skattning av populationsvariansen). Variansens enhet (t.ex., $\text{cigaretter}^2$ ) är svårtolkad.
Standardavvikelse (s): Roten ur variansen, vilket ger spridningsmåttet samma enhet som de ursprungliga mätvärdena.
Formel: $s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}$
Exempel (fortsättning): Medelvärde $= 9$ cigaretter/dag. Summa av kvadrerade differenser $= 136$ . $\sigma = \sqrt{\frac{136}{8-1}} = \sqrt{\frac{136}{7}} = \sqrt{19,42} \approx 4,4 \text{ cigaretter}$ .
Jämförelse av dieter (exempel): Två dieter, A och B, båda med medelvärde viktnedgång på $-4$ kg. Diet A: $s = 1,49$ kg. Diet B: $s = 0,74$ kg. Diet B har mindre spridning, vilket indikerar mer konsistenta resultat.

Variationskoefficient (CV)

Definition: Anger hur stor standardavvikelsen är i förhållande till medelvärdet, uttryckt som en relativ spridning i procent.
Formel: $CV = \frac{s}{\bar{x}} \times 100\%$
Exempel (blodsockermätning): Två tekniker, Metod A och Metod B.
- Metod A: $n=20, \bar{x} = 4,10 \text{ mmol/l}, s = 0,132$ . $CV = \frac{0,132}{4,10} \times 100 \approx 3,2\%$
- Metod B: $n=20, \bar{x} = 4,02 \text{ mmol/l}, s = 0,064$ . $CV = \frac{0,064}{4,02} \times 100 \approx 1,6\%$
  Metod B har lägre variationskoefficient, vilket indikerar högre precision.

Percentiler

Definition: Används för att beskriva hur stor andel av en population som ligger under ett angivet värde. Exempelvis ligger $10\%$ av observationerna under den 10:e percentilen.
Användning: Främst vid stort antal observationer.
Positionsformel: Den $k$ -te percentilen ( $P_k$ ) kan approximeras med positionen $\text{Position} = \frac{k(n+1)}{100}$ vid sorterad data.
Exempel: Beräkna den 50:e percentilen (medianen) för: $156, 160, 165, 171, 176, 182, 185, 186, 190$ (sorterade värden). Antal observationer ( $n$ ) = $9$ .
- Position $= \frac{50(9+1)}{100} = 5$ (den 5:e observationen).
- Den 5:e observationen är $176 \text{ cm}$ , vilket är medianen.

Kvartilavstånd

Definition: Delar ett datamaterial i fyra lika stora delar baserat på tre kvartilgränser ( $Q1, Q2, Q_3$ ).
- $Q_1$ (Undre kvartil): 25:e percentilen.
- $Q_2$ (Median): 50:e percentilen.
- $Q_3$ (Övre kvartil): 75:e percentilen.
Kvartilavstånd (Interquartile Range, IQR): $Q3 - Q1$ . Detta intervall innehåller de mittersta $50\%$ av värdena.
Exempel: Data: $156, 163, 165, 174, 176, 182, 184, 186$ (sorterade). Baserat på en specifik beräkningsmetod:
- $Q_1 \approx 164 \text{ cm}$
- $Q_2 \approx 175 \text{ cm}$
- $Q_3 \approx 183 \text{ cm}$
- Kvartilavstånd $= 183 - 164 = 19 \text{ cm}$ .

Variationsvidd (Range)

Definition: Skillnaden mellan det högsta och lägsta värdet i ett datamaterial ( $\text{max} - \text{min}$ ). Mycket känsligt för extremvärden.
Exempel: $156, 163, 165, 174, 176, 182, 184, 186$ . Variationsvidd $= 186 - 156 = 30 \text{ cm}$ . Kan även anges som $30 \text{ cm (186 - 156)}$ .

Modalprocent

Definition: Anger hur stor andel (procent) av datamaterialet som typvärdet utgör.
Exempel: Om typvärdet för en produkt är Vanilj och dess frekvens är $20\%$ , är modalprocenten $20,0\%$ .

Sammanfattning: Val av Spridningsmått

Valet av spridningsmått styrs av det lägesmått som valts utifrån datans skalnivå och fördelning.

Lägesmått	Spridningsmått
Medelvärde	Standardavvikelse, Variationskoefficient
Median	Percentiler, Kvartilavstånd
Typvärde	Variationsvidd, Modalprocent

Fördelning

Fördelningsform beskriver om data är symmetriskt eller asymmetriskt (skedvfördelat). Visuella verktyg som Box Plot, Stapeldiagram och Histogram används för att åskådliggöra fördelningen.

Box Plot (Lådagram)

Beskriver: Medianen, kvartilerna ( $Q1, Q3$ ), minsta och största värden inom ett rimligt intervall, samt avvikelser (outliers) och extrema avvikelser.
Outlier: Ett värde som ligger mer än $1,5$ gånger kvartilavståndet ( $IQR = Q3 - Q1$ ) ovanför $Q3$ eller under $Q1$ .
Extrem Outlier: Ett värde som ligger mer än $3$ gånger kvartilavståndet ovanför $Q3$ eller under $Q1$ .

Stapeldiagram (Stolpdiagram)

Användning: För kategoriska variabler (nominell eller ordinal skala).
Axlar: Kategorier på x-axeln, antal eller procent på y-axeln.
Utseende: Staplarna är åtskilda från varandra.

Histogram

Användning: För kontinuerliga variabler (intervall- eller kvotskala).
Axlar: Kontinuerliga värden på x-axeln, antal individer på y-axeln.
Utseende: Staplarna ligger intill varandra för att visa kontinuiteten i datan.

Utförlig Sammanfattning: Datanivå, Lägesmått, Spridningsmått och Form

Denna tabell ger en komplett översikt över lämpliga deskriptiva mått beroende på datans skalnivå.

Datanivå	Lägesmått	Spridningsmått	Form (grafisk presentation)
Nominal	Typvärde	Modalprocent	- (Stapeldiagram för frekvenser, men inte för form i meningen skevhet)
Ordinal – få skalsteg	Typvärde	Modalprocent	Stapeldiagram
Ordinal – många skalsteg	Median, Typvärde	Percentiler, Kvartilavstånd	Box Plot, Stapeldiagram
Intervall och kvotdata - symmetrisk	Medelvärde, Median	Standardavvikelse, Variationskoefficient (Kvartilavstånd)	Histogram, Box Plot
Intervall och kvotdata - sned	Median	Kvartilavstånd	Histogram, Box Plot

Normalfördelning (Kapitel 7)

Normalfördelningen är en av de viktigaste teoretiska fördelningarna inom statistiken.

Egenskaper

Teoretisk fördelning: Definieras av en matematisk formel.
Parametrar: Definieras helt av dess medelvärde ( $\mu$ ) och standardavvikelse ( $\sigma$ ).
Symmetrisk: Alltid symmetrisk kring sitt medelvärde ( $\mu$ ), vilket innebär att $\mu$ också är medianen och typvärdet.
Grafisk representation: Har en karakteristisk klockform.

Normalfördelningens Betydelse (Empiriska Regeln)

Den empiriska regeln beskriver andelen data som faller inom vissa standardavvikelser från medelvärdet i en normalfördelning.

$68,3\%$ av observationerna ligger inom $\pm 1$ standardavvikelse från medelvärdet ( $\mu \pm \sigma$ ).
$95,4\%$ av observationerna ligger inom $\pm 2$ standardavvikelser från medelvärdet ( $\mu \pm 2\sigma$ ).
$99,7\%$ av observationerna ligger inom $\pm 3$ standardavvikelser från medelvärdet ( $\mu \pm 3\sigma$ ).

Exempel på Normalfördelning

Om medelvärdet ( $\mu = 178 \text{ cm}$ ) och standardavvikelsen ( $\sigma = 6 \text{ cm}$ ) för kroppslängd:

$68,3\%$ av individerna har en längd mellan $172 - 184 \text{ cm}$ ( $178 \pm 6$ ).
$95,4\%$ av individerna har en längd mellan $166 - 190 \text{ cm}$ ( $178 \pm 2 \times 6$ ).
$99,7\%$ av individerna har en längd mellan $160 - 196 \text{ cm}$ ( $178 \pm 3 \times 6$ ).

Övergripande Sammanfattning och Slutsats

Flödesschema för statistisk metod och val av deskriptiva mått:

Målpopulation
Stickprov
Deskriptiv statistik (organisera och sammanställa data)
Analytisk statistik (dra slutsatser)
Slutsats

Val av mått baserat på fördelning:

Snedfördelat data: Använd Median som lägesmått och Percentiler eller Kvartilavstånd som spridningsmått.
Normalfördelat data (eller symmetriskt kvot/intervall data): Använd Medelvärde som lägesmått och Standardavvikelse som spridningsmått.